前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >闲聊word_embedding

闲聊word_embedding

作者头像
火星娃统计
发布2021-02-05 16:39:25
7130
发布2021-02-05 16:39:25
举报
文章被收录于专栏:火星娃统计火星娃统计

NLP word embedding

概述

依稀记得去年数据挖掘课有讲过这个概念,年轻不懂事,没认真听,只能现在补课

对于自然语言处理其实目前涉及的比较少,但是如果是临床大夫可能就比较多了,比较经典的例子就是电子病例的挖掘

文本

文本是一种非结构化的数据,在机器学习或者深度学习中,这些非结构化的数据是不能直接参与运算的,因此需要将非结构化的数据转换为结构化的数据,这个过程叫做文本表示。

one-hot

one-hot 编码有点类似统计分析中,将多分类变量进行哑变量处理的过程,如下

代码语言:javascript
复制
人厨子  [1,0,0,0]
百草仙  [0,1,0,0]
张一氓  [0,0,1,0]
圣因师太[0,0,0,1]

one-hot 编码对于少量的物体或者词语来说是可以实现的,但是如果涉及到较多的词语几百上千的词,这个时候对于深度学习来说就是一种冗余,绝大多数的参数都是0,这种稀疏矩阵是不利于深度学习的

整数编码

整数编码类似将哑变量再转换回来

代码语言:javascript
复制
人厨子  1
百草仙  2
张一氓  3
圣因师太 4

缺点:模型解释困难

word embedding

什么是embedding?,简单的说embedding就是将一个词用一个低维的向量来表示,这个使用低维向量表示高维世界物体的想法跟傅里叶变化有着异曲同工之秒。通俗的讲从另一个世界看这个世界

word embedding 的优点

  • 降低参数的数量,和one-hot相比
  • 通用性强
  • 词与词之间存在关联

两种主流算法

  • Word2vec
    • word2vec是谷歌研发的算法,这个算法的提出,让embedding方法得到了广泛的使用
  • Global Vectors for Word Representation(GloVe)

结束语

word2vec的算法原理很复杂,整不明白

love&peace

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-01-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 火星娃统计 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • NLP word embedding
    • 概述
      • 文本
        • one-hot
        • 整数编码
        • word embedding
      • 结束语
      相关产品与服务
      NLP 服务
      NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档