博客 | 对学习/理解 Word2Vec 有帮助的材料

转自 : AI研习社

之前面试被面到了,加上一直不是很理解词嵌入的工作方式,所以这段时间找了不少相关的资料想把这玩意儿搞明白。理解还是有限,就不自不量力自己写一篇了(就算写也是把已有的文章揉一揉,不敢说是自己的理解),把看过觉得比较有用的材料整理出来,作为一则记录。

一篇英文的博客也做了类似的整理(http://textprocessing.org/getting-started-with-word2vec)。

本篇则主要记录中文的资料和必要的英文资料。

理解 Word2Vec 主要是理解一些概念和实践技巧:

概念包括词的分布式表示、词嵌入、神经网络的语言模型,这些内容网上解析 W2V 的几乎都涉及到了,找个靠谱的看一遍即可;Word2Vec 的主要贡献不在算法,而在于对以上方法做了一定的简化和速度上的改进,就像原文中说的现在单机可在一天内训练亿级语料,这就是 CBOW 和 Skip-Gram、Hierarchical Softmax、Negative Sampling 等等内容了。

1.作者的论文

https://arxiv.org/pdf/1301.3781.pdf

https://arxiv.org/pdf/1310.4546.pdf

源码下载:

https://code.google.com/archive/p/word2vec/

2.[NLP] 秒懂词向量Word2vec的本质

适合对重要概念建立一点印象。

https://zhuanlan.zhihu.com/p/26306795

口气很大,但写得着实不错。文中整理的材料我也会在下方重复。也推荐自己挑选阅读。

我觉得作为博文而非论文来说,最重要的甚至不是“不出错”,而是“说人话”。只看学术论文,很多关键细节都淹没在公式里了,但对于一些问题来说,重要的可能不是这些公式。深度学习领域的“let data talk”尤其体现了这一点。

3.Rong Xin 的工作

讲解视频:https://www.youtube.com/watch?v=D-ekE-Wlcds

文章:word2vec Parameter Learning Explained(https://arxiv.org/abs/1411.2738)

PPT:https://docs.google.com/presentation/d/1yQWN1CDWLzxGeIAvnGgDsIJr5xmy4dB0VmHFKkLiibo/edit#slide=id.ge79682746_0_438

Demo:https://ronxin.github.io/wevi/

推荐先看视频,然后把论文理解一遍。

4.有道的 Deep Learning Word2Vec 笔记

这篇可能更适合开发人员学习,我看得比较费劲……

5.来斯为的博客和博士论文

http://licstar.net/archives/category/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86

6.计算所某直博大佬的博文,源码解析

http://www.cnblogs.com/neopenx/p/4571996.html

7.词向量的来龙去脉

http://ruder.io/word-embeddings-1/

Ruder 的系列博文,非常清晰。

有了比较充足的认识以后,接下来可以看看代码或者自己用一下 Tensorflow 或 Gensim 的训练版本了。

实践方面,可参考来斯为的博士论文。

本文分享自微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

一个简单的多机器人编队算法实现--PID

用PID进行领航跟随法机器人编队控制 课题2:多机器人编队控制 研究对象:两轮差动的移动机器人或车式移动机器人 研究内容:平坦地形,编队的保持和避障,以及避障和...

54870
来自专栏互联网数据官iCDO

数据分析图的十大错误,你占了几个?

本文转载自大数据 "数据可视化"是个好帮手,可以帮助用户理解数据。但是,你真的会用它吗?看看这里,数据可视化的十大错误你占了几个? 优秀的数据可视化依赖优异的设...

37880
来自专栏YoungGy

MMD_4a_CollaborativeFiltering

Overview history long tail types of rs model key problems Content-based System m...

22660
来自专栏月色的自留地

从锅炉工到AI专家(11)(END)

26070
来自专栏CSDN技术头条

25个Java机器学习工具&库

本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。W...

27980
来自专栏华章科技

数据分析图的十大错误,你占了几个?

优秀的数据可视化依赖优异的设计,并非仅仅选择正确的图表模板那么简单。全在于以一种更加有助于理解和引导的方式去表达信息,尽可能减轻用户获取信息的成本。当然并非所有...

10110
来自专栏AI研习社

博客 | 对学习/理解 Word2Vec 有帮助的材料

之前面试被面到了,加上一直不是很理解词嵌入的工作方式,所以这段时间找了不少相关的资料想把这玩意儿搞明白。理解还是有限,就不自不量力自己写一篇了(就算写也是把已有...

17640
来自专栏深度学习之tensorflow实战篇

python 实现数据降维推荐系统(附Python源码)

主成分分析原理:请点击PCA查看 #!usr/bin/env python #_*_ coding:utf-8 _*_ import pandas as pd ...

48740
来自专栏新智元

让神经网络替你编程:如何用深度学习实现程序自动合成

【新智元导读】本文介绍了训练神经网络学习用复杂的函数式语言(FlashFill DSL)进行编程取得的成功,标志着神经程序合成方面一个令人兴奋的突破。 ● 作...

46080
来自专栏Jerry的SAP技术分享

SAP CRM调查问卷的评分和图表显示功能介绍

SAP CRM里我们使用事务码CRM_SURVEY_SUITE创建一个调查问卷(Survey):

14320

扫码关注云+社区

领取腾讯云代金券