学习
实践
活动
专区
工具
TVP
写文章

吴恩达深度学习课程笔记(1)

Project 5 Week3 自然语言处理与词汇嵌入

1 词汇表征

1. One-hot表征

one-hot表征的方式是对模型字典中的单词进行表征,对应单词的位置用1表示,其余位置用0表示,如图1所示:

图1

这种方法是存在缺点的,它将每个词孤立起来,使得模型对相关词的泛化能力不强,每个词向量之间的距离都一样,乘积均为0,所以无法获取词与词之间的相似性和关联性。

2.特征表征:词嵌入

这种方法是用不同的特征来对词汇进行表示,不同的单词在不同的特征下都有不同的取值,取值可以表示该词汇在该特征下的相似度情况,如图2所示,Man与Woman在Gender特征上是完全不相通,而在其它属性上相似。Man和King,Woman和Queen在Gender上相似,说明他们具有一定的相关性,其它以此类推。

图2

利用这种表征方法,词汇之间的相似度很容易得到体现,这样对于不同单词,模型的返回性能会好很多。我们利用t-SNE算法将N维词向量映射到2维空间,如图3所示,可以看出相似的词汇总是聚集在一起。

图3

2 词汇嵌入

2.1 使用词嵌入

名字实体识别的例子:

如下面的一个句子中名字实体的定位识别问题,假如我们有一个比较小的数据集,可能不包含durain(榴莲)和cultivator(培育家)这样的词汇,那么我们就很难从包含这两个词汇的句子中识别名字实体。但是如果我们从网上的其他地方获取了一个学习好的词汇嵌入,它将告诉我们榴莲是一种水果,并且培育家和农民相似,那么我们就有可能从我们少量的训练集中,归纳出没有见过的词汇中的名字实体。

Sally Johnson is an orange farmer.

Robert Lin is a durian cultivator.

词嵌入的迁移学习:

有了词嵌入,就可以让我们能够使用迁移学习,通过网上大量的无标签的文本中学习到的知识,应用到我们少量文本训练集的任务中。下面是做词嵌入迁移学习的步骤:

第一步:从大量的文本集合中学习词汇嵌入(1-100B words),或者从网上下载预训练好的词嵌入模型;

第二步:将词嵌入模型迁移到我们小训练集的新任务上;

第三步:可选,使用我们新的标记数据对词嵌入模型继续进行微调。

2.2 词嵌入特性

1.类比推理特性

词嵌入可以帮助实现类比推理。如图2所示,通过不同词向量之间的相见计算,可以发现不同词汇之间的类比关系。例如:eman-ewoman=[-2,0,0,0](后三项非常小,近似于0)。

计算词与词之间的相似度,实际上是在多维空间中,寻找词向量之间各个维度的距离相似度。

例如,我们寻找一个与king相似于man-woman关系的词汇,实际上相当于寻找下面这两个向量之间的最大相似度,如式(2.1)所示。

同时我们引入了相似度函数,如式2.2所示。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180620G0LKBA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券