自然语言处理--特征提取

自然语言中意义最小的单位就是单词,其次是句子,再是段落,最后一整篇文章。

通常来说,提取单词的特征是最常用的提取方法。当然,特征提取也是根据你看问题的角度的来决定,也就是说你要解决的问题以及解决问题的模型所决定的。

下面我们仅仅从单词角度来看问题来说说两种常见的特征表示的方法。

词袋:

最简单的是一种叫做词袋的特征。对于一篇文章,每个单词都收入一个词袋中并计数,比如在一篇介绍狗的百度百科文章中,“狗”出现10次,“犬”出现8次。则词包是{“狗”:10,“犬”:8}。

词袋的用途可以在文章分类时,相同类型的文章,词出现的频率也是差不多的。

但是存在一个问题,文章有长有短,文章长明显词就长得多,为了能比较不同长度的文章,因此词袋中的词出现的频率要做正则化。用的方法叫TF-IDF,也就是词出现的频率要乘以词的权重,这样就能统一比较不同长度的文章了。

词向量:

我们再来看另一种单词的特征表达方法,叫做词向量。单词自身是存在意义的,而且在文章的上下文语意下的意思也不同。因此单纯的词袋方法,不能解决较复杂的场景。这时候就要用到词向量,一个词对应一个多维的向量,在得到词向量后可以认为计算机理解了这个词的多种语意。最神奇的是,词向量还存在可以加减性,例如:“小猫”-“猫”+“狗”=“小狗”。可以认为,向量的某个维度反应了大小特征,另一个反映了动物特征,则减去了猫的特征再加狗的特征只变动了动物特征,就把这个词向量变为了“小狗"

这里读者肯定好奇这么好的词向量方法怎么从文章中提取出来呢?

这里说一种用深度学习得到词向量的方法,叫word2vec。

首先,我们需要准备一大堆文章,俗称语料。

然后,按句子的顺序一次次输入单词,每次输入一个词,让深度学习的模型预测这个词在句子中的周围的词,并反馈预测的对错。

最后,在大量的语料的输入和反馈下,模型就逐渐知道一个词在上下文中的含义了。

最后的最后,来看一个好玩的东西,一个词向量通常是多维度的,我们用一种叫t-SNE的方法把他压缩成二位平面上的图,你能看到,相近意思的词会聚拢在一起。

原文发布于微信公众号 - 林欣哲(gh_aba6caba3ac7)

原文发表时间:2017-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | Bengio最新论文提出GibbsNet:深度图模型中的迭代性对抗推断

3716
来自专栏PPV课数据科学社区

小心训练模型,数据少也可以玩转深度学习

最近,Jeff Leek 在 Simply Stats 上发表了一篇题为「如果你的数据量不够大就不要使用深度学习」(Don’t use deep learnin...

3485
来自专栏量子位

详解香港中文大学超大规模分类加速算法 | 论文

简介 近日,香港中大-商汤科技联合实验室的新论文“Accelerated Training for Massive Classification via Dyn...

36710
来自专栏AI研习社

神经网络如何完成表征?

我们了解神经网络以及它们从数据科学到计算机视觉的多个领域中的无数成就。众所周知,它们在解决有关泛化性方面的复杂任务中表现良好。从数学上讲,他们非常擅长近似任何的...

1312
来自专栏专知

【干货】深度学习中的数学理解— 教你深度学习背后的故事

【导读】如今,深度学习在各项任务中所向披靡,比如图像识别,语音处理和自然语言处理。但是,深度学习的理论探讨却比应用滞后好几个数量级,一方面是做应用马上能见效,然...

3007
来自专栏机器之心

就喜欢看综述论文:情感分析中的深度学习

5689
来自专栏云飞学编程

想知道怎么学人工智能嘛?都在这里!

1、声学模型 2、Deep Neural Networks 3、Hidden Markov Model等

864
来自专栏大数据文摘

吴恩达机器学习中文版笔记:异常检测(Anomaly Detection)

3027
来自专栏CVer

[计算机视觉论文速递] 2018-05-08

[1]《DCAN: Dual Channel-wise Alignment Networks for Unsupervised Scene Adaptation...

1141
来自专栏IT派

机器学习方法体系汇总

导语: 对学习算法进行分类是基于构建模型时所需的数据:数据是否需要包括输入和输出或仅仅是输入,需要多少个数据点以及何时收集数据。根据上述分类原则,可以分为4个主...

3584

扫码关注云+社区