Project 5 Week3 自然语言处理与词汇嵌入
1 词汇表征
1. One-hot表征
one-hot表征的方式是对模型字典中的单词进行表征,对应单词的位置用1表示,其余位置用0表示,如图1所示:
图1
这种方法是存在缺点的,它将每个词孤立起来,使得模型对相关词的泛化能力不强,每个词向量之间的距离都一样,乘积均为0,所以无法获取词与词之间的相似性和关联性。
2.特征表征:词嵌入
这种方法是用不同的特征来对词汇进行表示,不同的单词在不同的特征下都有不同的取值,取值可以表示该词汇在该特征下的相似度情况,如图2所示,Man与Woman在Gender特征上是完全不相通,而在其它属性上相似。Man和King,Woman和Queen在Gender上相似,说明他们具有一定的相关性,其它以此类推。
图2
利用这种表征方法,词汇之间的相似度很容易得到体现,这样对于不同单词,模型的返回性能会好很多。我们利用t-SNE算法将N维词向量映射到2维空间,如图3所示,可以看出相似的词汇总是聚集在一起。
图3
2 词汇嵌入
2.1 使用词嵌入
名字实体识别的例子:
如下面的一个句子中名字实体的定位识别问题,假如我们有一个比较小的数据集,可能不包含durain(榴莲)和cultivator(培育家)这样的词汇,那么我们就很难从包含这两个词汇的句子中识别名字实体。但是如果我们从网上的其他地方获取了一个学习好的词汇嵌入,它将告诉我们榴莲是一种水果,并且培育家和农民相似,那么我们就有可能从我们少量的训练集中,归纳出没有见过的词汇中的名字实体。
Sally Johnson is an orange farmer.
Robert Lin is a durian cultivator.
词嵌入的迁移学习:
有了词嵌入,就可以让我们能够使用迁移学习,通过网上大量的无标签的文本中学习到的知识,应用到我们少量文本训练集的任务中。下面是做词嵌入迁移学习的步骤:
第一步:从大量的文本集合中学习词汇嵌入(1-100B words),或者从网上下载预训练好的词嵌入模型;
第二步:将词嵌入模型迁移到我们小训练集的新任务上;
第三步:可选,使用我们新的标记数据对词嵌入模型继续进行微调。
2.2 词嵌入特性
1.类比推理特性
词嵌入可以帮助实现类比推理。如图2所示,通过不同词向量之间的相见计算,可以发现不同词汇之间的类比关系。例如:eman-ewoman=[-2,0,0,0](后三项非常小,近似于0)。
计算词与词之间的相似度,实际上是在多维空间中,寻找词向量之间各个维度的距离相似度。
例如,我们寻找一个与king相似于man-woman关系的词汇,实际上相当于寻找下面这两个向量之间的最大相似度,如式(2.1)所示。
同时我们引入了相似度函数,如式2.2所示。
领取专属 10元无门槛券
私享最新 技术干货