首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

春节充电系列:李宏毅2017机器学习笔记14之无监督学习:词嵌入表示

【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的无监督学习:主成分分析(PCA),这一节将主要针对讨论unsupervised learning-word embedding。本文内容涉及机器学习中半监督学习word embedding的若干主要问题:word embedding的含义,prediction-based, language model以及word embedding拓展。话不多说,让我们一起学习这些内容吧

课件网址:

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

视频网址:

https://www.bilibili.com/video/av15889450/index_1.html

李宏毅机器学习笔记14Unsupervised Learning :Word Embedding(无监督学习:词嵌入表示)

1.word embedding的含义

Word embedding指的是机器从许多文档中非监督学习到词语的含义

表示词语的含义有许多方法,最简单的是1-of-N encoding,但这个方法可以独立表示每个词,但词与词之间的关联并不能表示出来,并且0-1序列过于庞大了。Word class也是一种方法,将词汇分为不同的类,但这种分类太粗糙了。较好的方法即使今天介绍的work embedding方法,用向量表示每个词汇。

一个词汇的含义能够从句子中学到,比如下面的句子我们就知道马英九和蔡英文在某些部分中含义很相近

如果两个词汇含义很相近则他们向量也应该很相近

2.prediction-based

我们可以利用Neural Network进行文本的预测,以真实值和预测值的交叉熵作为损失函数

或者可以利用word embedding进行句子的预测,例如推文接话

3.langugage model

在language modeling中,一个句子出现的概率可以表示为一系列条件概率的乘积

一个词后接另一个词的概率也是可以用NN来训练

因为马英九和蔡英文后面接的都是宣誓就职,所以马英九和蔡英文的向量表示应该很相近

4.word embedding拓展

当然prediction-based 不止这一种架构,还有很多其他架构,比如continuous bag of word model,skip-gram

对于word embedding我们可以发现在向量空间中每个国家和他的首都有着类似的关系

例如比较级两个词语向量相减近似相等,我们可以发现,对于word embedding,有特定关系的两个词语他们的向量差是近似相等的。

我们还可以实现多语言的word embedding

推广还有document embedding,每个向量表示句子的含义

传统方法是采用词袋模型,统计每个词语出现的次数

但这是不够的,因为在文章中词语出现的顺序很重要。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180228G0NOGI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券