NLP(1)——词向量one hot编码词向量编码思想Word2VecEmbeddingSkip-gram的原理负采样

前言:深度学习网络rnn能解决有序的问题,我们就生活在这样一个有序的世界。比如时间,音乐,说话的句子,甚至一场比赛,比如最近正在举办的俄罗斯世界杯。

one hot编码

我们在做分类任务的时候经常用到one hot编码,如果把自然语言中每个词当做一个类别,维度就会非常大,但能解决了最基本的问题——能分开词了。如下图:

一共能产生14901维。 问题:占用太大空间,词和词之间的相识度无法体现。也就是所说的稀疏化。 one hot代码如下:

from sklearn.preprocessing import OneHotEncoder
# lables = ['ni','号','ni','meimei']
lables = [0,1,0,4]
lables = np.array(lables).reshape(len(lables),-1)
enc =   OneHotEncoder()
enc.fit(lables)
target = enc.transform(lables).toarray()

print(target)

输出结果如下:

词向量编码思想

我们需要把上面的编码转化为这样的编码:

能很好地解决上面的问题。基于以上思想,生出很多方法,主要有两种假说。

  • 假说一:The distributional hypothesis 分布式假说

一个词由周围词来推断。相似的词会出现在相似的语境里。例如今晚的天空有很多星星。句子中天空和星星相关,横向共现。这样,我们可以由词跟语境的关系来判断相似度,天空和星星就是相似的。BOW, LSI, LDA等模型都是由这种假说出发的,产生的很多种方法来计算这个实值向量。1954年BOW模型不考虑语序,出现一次加1。2003年LDA模型,是主题模型中的某一个特例。PMI/PPMI等方法都研究共现,相关词共同出现几次,然后再做SVD矩阵分解等。

  • 假说二:Distributed models

相似词在相似语境contex下。例如今天天空有很多星星。今天天空有个太阳。这两个句子中的星星和太阳这两个词出现在了同样的上下文之中,它们是相似的,但它们是一种纵向的相似性。基于这种假说诞生的方法,最重要的就是这个Word2Vec。 当然,我们要讲解的重点是Word2Vec。事实上,Word2Vec是由神经网络语言模型得到的一个副产物

Word2Vec

Word2vec 是代码项目的名字,只是计算词嵌入(word embedding)的一个工具,是CBOW和Skip-Gram这两个模型的合体,目前这套工具完全开源。 CBOW是利用词的上下文预测当前的单词;而Skip-Gram则是利用当前词来预测上下文。

image.png

Embedding

Word2Vec中从输入到隐层的过程就是Embedding的过程。 Embedding的过程就是把多维的onehot进行降维的过程,是个深度学习的过程。满足:

  1. 嵌入层向量长度可设置
  2. 映射过程是全连接
  3. 嵌入层的值可训练
  4. 由高维度映射到低纬度,减少参数量

Skip-gram的原理

在embedding的基础上再加上一个输出层就是Skip-gram的过程了。根据某个词,然后分别计算它前后出现某几个词的各个概率。 如果有这样一个词序列 (你真漂亮)那么就会有四个1-hot 编码的输入向量: 1000, 0100,0010,0001。这就是可能的CBow模型的输入,假设我们当前的输入是0100,也就是“真”这个字。

再来看输出,假如我们希望预测“真”这个词的上下文,,比如说取前后各一个。

那么就会有两个output,刚才说了每个output是一个概率Vector, 假设这两个output Vector是(0.3, 0.5, 0.7,), (0.1,0.9,0.1)。第一个(0.3,0.5,0.7)中的数字表示的就是“你”出现在“真”之前一位的概率是0.3, “真”出现在“真”之前一位的概率是0.5, “漂亮”出现在“真”前一位的概率是0.7。同样,后一个向量(0.1,0.9,0.1)则表示“你”出现在“真”之后的概率是0.1,“真”出现在“真”之后的概率是0.1,……。

这样的话,只要我们给定了一个词,整个CBow网络就可以得到这个词上下文中各个词出现的概率,我们用蒙特卡洛模拟的方法根据哪些概率值去采样,就能得到一个具体的上下文。 然后就是优化了,使得输入的词之间“真漂亮”之间的概率足够大。 写出目标函数:

T是语料库单词的总个数,p(wt+j|wt)是已知当前词wt,预测周围词的总概率对数值。

负采样

然而,在实际的计算过程中,运算量过于巨大,于是人们就像出了一个绝妙的解决办法,从而快速地完成任务。这种方法就被称为“负采样”(Negative sampling)。 负采样的核心思想是,如果将自然语言看作是一串单词的随机组合,那么它的出现概率是很小的。于是,如果我们将拼凑的单词随机组合(负采样)起来将会以很大的概率不会出现在当前文章中。于是,我们很显然应该至少让我们的模型在这些负采样出来的单词组合上面出现概率应该尽可能地小,同时要让真正出现在文中的单词组合出现概率大。这样我们的模型才足够有效。于是,我们的目标变成了优化新的概率函数:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI2ML人工智能to机器学习

Hinton和Jordan理解的EM算法

在“Hinton是如何理解PCA?”里面,我们体会到Hinton高人一等的见解。 Hinton, 这个深度学习的缔造者( 参考 攒说 Geoff Hinton ...

1003
来自专栏大数据挖掘DT机器学习

【机器学习】迭代决策树GBRT

一、决策树模型组合 单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树...

3114
来自专栏达观数据

技术干货 | 达观数据智能问答技术研究

在AlphaGo大胜李世石、柯洁之后,人工智能越来越火,智能问答也是其中必不可少的一环。智能问答一般用于解决企业客服、智能资讯等应用场景,实现的方式多种多样,包...

37311
来自专栏机器学习算法与Python学习

干货 | 条件随机场详解之模型篇

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 条件随机场部分分为两篇讲解,今天这一...

2023
来自专栏机器之心

入门 | 从结构到性能,一文概述XGBoost、Light GBM和CatBoost的同与不同

选自Medium 机器之心编译 参与:刘天赐、黄小天 尽管近年来神经网络复兴并大为流行,但是 boosting 算法在训练样本量有限、所需训练时间较短、缺乏调参...

4055
来自专栏深度学习自然语言处理

近期有哪些值得读的QA论文?

■ 论文 | Making Neural QA as Simple as Possible but not Simpler

1223
来自专栏人工智能头条

推荐收藏 | AI术语中英文对照

941
来自专栏机器之心

教程 | 通过PyTorch实现对抗自编码器

选自Paperspace Blog 作者:Felipe 机器之心编译 参与:Jane W、黄小天 「大多数人类和动物学习是无监督学习。如果智能是一块蛋糕,无监督...

3416
来自专栏Brian

数据挖掘

---- 概述 最近一直在学习数据挖掘和机器学习,无论是是服务端开发人员还是web开发人员,个人觉得最起码都要都一些最基本的数据挖掘和机器学习知识。废话少说,我...

2865
来自专栏CDA数据分析师

教你如何使用深度学习识别交通标志,准确度高达93%

原作者 Priya Dwivedi 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 自动驾驶已经迎来发展的热潮。自动驾驶车在行驶时,需...

5145

扫码关注云+社区