闲聊word_embedding

火星娃统计

发布于 2021-02-05 16:39:25

7260

发布于 2021-02-05 16:39:25

文章被收录于专栏：火星娃统计

NLP word embedding

概述

依稀记得去年数据挖掘课有讲过这个概念，年轻不懂事，没认真听，只能现在补课

对于自然语言处理其实目前涉及的比较少，但是如果是临床大夫可能就比较多了，比较经典的例子就是电子病例的挖掘

文本

文本是一种非结构化的数据，在机器学习或者深度学习中，这些非结构化的数据是不能直接参与运算的，因此需要将非结构化的数据转换为结构化的数据，这个过程叫做文本表示。

one-hot

one-hot 编码有点类似统计分析中，将多分类变量进行哑变量处理的过程，如下

人厨子  [1,0,0,0]
百草仙  [0,1,0,0]
张一氓  [0,0,1,0]
圣因师太[0,0,0,1]

one-hot 编码对于少量的物体或者词语来说是可以实现的，但是如果涉及到较多的词语几百上千的词，这个时候对于深度学习来说就是一种冗余，绝大多数的参数都是0，这种稀疏矩阵是不利于深度学习的

整数编码

整数编码类似将哑变量再转换回来

人厨子  1
百草仙  2
张一氓  3
圣因师太 4

缺点：模型解释困难

word embedding

什么是embedding？，简单的说embedding就是将一个词用一个低维的向量来表示，这个使用低维向量表示高维世界物体的想法跟傅里叶变化有着异曲同工之秒。通俗的讲从另一个世界看这个世界

word embedding 的优点

降低参数的数量，和one-hot相比
通用性强
词与词之间存在关联

两种主流算法

Word2vec
- word2vec是谷歌研发的算法，这个算法的提出，让embedding方法得到了广泛的使用
Global Vectors for Word Representation(GloVe)

结束语

word2vec的算法原理很复杂，整不明白

love&peace

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-01-23，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习

编程算法

本文分享自火星娃统计微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

深度学习

编程算法

登录后参与评论

0 条评论

热度