专栏首页算法channel大白话总结著名的 word2vec

大白话总结著名的 word2vec

本文作者:Alicia , 现在美国名校读博士后,从事 AI 研究及教学工作,拥有 10 年以上工作与科研经历。

图(Graph:G = <V (节点), E(边)>)是一种普遍存在的数据结构。

譬如,我们大家(users)生活在一个人际关系网络/图 中。

一个实际的问题是 商品推销 (recommender system,商品推荐系统),如果你的 朋友 喜欢购买游戏 你可能也会喜欢电脑;如果你的朋友 喜欢购买篮球,你可能也会喜欢运动。

这里你我便是图的节点,‘朋友’便是一种关系(图的边连接你我)。

图是普遍 广泛的知识表达方式,所以 我们 需要好的技术/模型 来进行图的分析。我们可以直接对图进行操作。

经典的方法,例如,节点之间的最短路;给定某个节点求其最近的 K 个节点;还有著名的 random-walk (with restart); PageRank - Google 的搜索算法;基于 谱分析的 (spectral) diffusion maps 等等。

”图的表示“ 学习(Graph Representation Learning)变得很流行,也就是 找到一个函数/Map 把一个图的节点变成向量表示形式 (f: G --> V)。

其重要性为:向量/数更为直接作为机器学习的输入,从而来分析图,例如可以直接对节点向量进行聚类/分类分析 (物以类聚,人以群分)更好的推荐商品。

那么,如何来把图的节点转化成向量呢?

DeepWalk 是纽约州立大学石溪分校的工作,想法简洁,效果很好。

简单介绍:对图上的节点进行随机行走 K 步(random walk),得到一个 K+1 个节点的路径,然后把路径上相邻的节点分成对子 (Ni, Nj), 然后,可以建立深度学习模型来预测(输入是Ni,输出是 Nj)

也就是著名的 word2vec。

若是有兴趣可以查看原文。

References:

Deep-Walk: https://arxiv.org/abs/1403.6652

random-walk/page-rank:

http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf

Diffusion maps:

https://www.sciencedirect.com/science/article/pii/S1063520306000546

本文分享自微信公众号 - Python与机器学习算法频道(alg-channel),作者:Alicia

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 跨越时空:找回 RNN 消失的梯度

    斯坦福 NLP 的第 9 课后半部分给出了答案:主要应对梯度消失的措施是隐含层中采用更复杂的隐含单元。读者朋友们,你们可以回想下 RNN 的网络结果,隐含层中,...

    double
  • 二叉树非递归版的后序遍历算法

    本公众号主要推送关于对算法的思考以及应用的消息。算法思想说来有,分而治之,搜索,动态规划,回溯,贪心等,结合这些思想再去思考如今很火的大数据,云计算和机器学习,...

    double
  • MySQL|索引背后

    01 索引 以MySQL中的索引为例子总结。 数据库查询是数据库的最主要功能之一,实现高效的查询速度一定是MySQL非常关心的事情。 索引(Index)正是帮...

    double
  • 红黑树详细分析,看了都说好

    红黑树是一种自平衡的二叉查找树,是一种高效的查找树。它是由 Rudolf Bayer 于1978年发明,在当时被称为对称二叉 B 树(symmetric bin...

    田小波
  • 数据结构与算法笔记(三)

    数据结构中的树(Tree)与生活中常见的树?有些类似,可以类比为生活中的树?倒过来。示意图:

    WriteOnRead
  • ES[7.6.x]学习笔记(二)ES的集群原理 ## 发现

    发现是节点之间彼此发现,形成集群的一个过程。这个过程发生的场景有很多,比如:你启动了一个集群节点,或者一个节点确认主节点已经挂掉了,或者一个新的主节点被选举了。

    小忽悠
  • ES[7.6.x]学习笔记(二)ES的集群原理 ## 发现

    发现是节点之间彼此发现,形成集群的一个过程。这个过程发生的场景有很多,比如:你启动了一个集群节点,或者一个节点确认主节点已经挂掉了,或者一个新的主节点被选举了。

    小忽悠
  • Map集合、散列表、红黑树介绍

    Java3y
  • 算法数据结构(一)-B树

    蘑菇先生
  • Stowaway:一款专为渗透测试人员设计的多级代理工具

    Stowaway是一款采用Go语言开发的多级代理工具,该工具专为渗透测试人员设计,广大用户可以使用该工具将外部流量通过多个节点代理至内网,并实现自定义管理功能。...

    FB客服

扫码关注云+社区

领取腾讯云代金券