前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【Embedding】GloVe:大规模语料中快速训练词向量

【Embedding】GloVe:大规模语料中快速训练词向量

作者头像
阿泽 Crz
发布2020-07-21 11:17:00
1.1K0
发布2020-07-21 11:17:00
举报

1. Introduction

今天学的论文是斯坦福大学 2014 年的工作《GloVe: Global Vectors for Word Representation》,在当时有两种主流的 Word Embedding 方式,一种是矩阵分解,类似 LSA;另一种是 13 年提出的 Word2Vec,基于滑动窗口的浅层神经网络。前者的优点是利用了全局的统计信息(共现矩阵),后者的优点是计算简单且效果好 = =,但缺点是没利用全局的统计信息。所以这篇论文的主要工作是想综合两者的优点。

在看论文前我们不妨来思考一下,如果你是研究员,现在有这样的想法(综合全局信息和局部信息),你该如何去实现?

2. GloVe Model

2.1 Weighted Least Squares

我们先来给些定义,另 X 为词与词的共现矩阵, 表示单词 j 出现在单词 i 上下文中的次数。于是我们有单词 j 出现在单词 i 上下文的共现概率:

Weight Function f

2.2 Relationship to Word2Vec

3. Experiments

然后我们来看下与其他模型的对比实验部分:

Experiments_1

Experiment

Experiments

还有参数敏感性的实验:

Experiments

细心的同学可以看到这里有一个 Window Size 的参数,这个是用来统计共现矩阵的。

至此,我们的论文就结束了。但我看完这篇论文还有一个非常大的疑惑:GloVe 是怎么训练的呢?

4. Training

那么问题来了:为什么不用一个矩阵和一个偏置项呢?这样计算量还可以减少一半,何乐不为?

欢迎大家在留言区讨论留言。

我们再简单分析一下 GloVe 的时间复杂度,从上面的实验结果来看 GloVe 的速度是非常快的,其原因主要有以下几点:

  1. 时间复杂度低,最差为 O(C) ,即统计一遍语料库的共现矩阵,具体推导看论文;
  2. 参数稀疏,可以用异步梯度下降算法进行优化;
  3. 关注全局信息,收敛速度快。

5. Conclusion

至此,我们便结束了 GloVe 的介绍,用一句话总结便是:GloVe 使用具有全局信息的共现矩阵,并采用类似矩阵分解的方式求解词向量,通过修改代价函数将 Word2Vec 关注局部特征的优点加入进来,并取得了良好的效果。

我们尝试着将 GloVe 与 Word2Vec 进行对比:

  1. Word2Vec 有神经网络,GloVe 没有;
  2. Word2Vec 关注了局部信息,GloVe 关注局部信息和全局信息;
  3. 都有滑动窗口但 Word2Vec 是用来训练的,GloVe 是用来统计共现矩阵的;
  4. GloVe 的结构比 Word2Vec 还要简单,所以速度更快;
  5. Word2Vec 是无监督学习,而 GloVe 可是视为有监督的,其 Label 为 。

再试着将 GLoVe 与 SVD 进行对比:

  1. SVD 所有单词统计权重一致,GloVe 对此进行了优化;
  2. GloVe 使用比值而没有直接使用共现矩阵。

当然 GloVe 看着那么好,其实并不一定,在很多任务中都没 Word2Vec 的效果好。

毕竟没有最好的模型,只有最适合的模型。

6. Reference

  1. 《GloVe: Global Vectors for Word Representation》

关注公众号跟踪最新内容:阿泽的学习笔记

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 阿泽的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2. GloVe Model
    • 2.1 Weighted Least Squares
      • 2.2 Relationship to Word2Vec
      • 4. Training
      • 5. Conclusion
      • 6. Reference
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档