自然语言处理之文本卷积

*注:本文仅适用于已了解图像卷积过程的童鞋们

自然语言处理之文本卷积 1.文本的向量表示 2.文本的1维卷积 3.池化

1.文本的向量表示

在文本处理时,首先要将文本用向量表示出来。这里用词袋模型和word2vec来举例。

1.词袋模型

词袋模型的文本向量表示

•每个单词用一个one-hot vector来表示

•将每个单词的向量相加得到文本的向量表示

•向量的长度会很长,并且会稀疏

2.word2vec

word2vec的文本向量表示

•用word2vec embeddings来表示每个单词

•每个向量的长度减少,并且是稠密向量

•将每个单词的向量相加来得到文本的向量表示

2.文本的1维卷积

卷积

3.卷积核

卷积核的宽度和词向量的长度相同,行数代表n-grams中的n,即有n行则这个卷积核一次能卷积n个词向量的信息

4.向量的距离

在word2vec中,意义越接近的词会有越接近的向量表示,用cosine距离来表示就会越小

5.值

每次经过卷积操作得到一个值,这个值越大说明被卷积的词向量(n个)和卷积核的距离越小,也就意味着表示的意义接近。例如,卷积核代表动物+动作,而被卷积的词向量组合代表cat sitting和dog resting,这样卷积得到的值就会比较大。

1维卷积

•卷积核的大小可改变(行数),可以进行3-gram,4-gram卷积

•和图像处理一样,需要多个卷积核

•1维卷积是因为只在一个方向上进行卷积(时间方向)

一维卷积

一个卷积核对一段文本进行卷积最终得到一个向量(与前面直接将每个词向量相加得到得到文本向量不同)。

3.池化

最大池化

进行最大池化。由于与卷积核越接近的矩阵卷积得到的值越大,因此最大池化最终得到一个最能表达这个卷积核筛选出来的特征的值。

用多个卷积核来处理文本

•用3,4,5-gram的卷积核各100个来处理文本,经过卷积池化最终得到一个长度为300的向量

•这个向量可以用于机器学习模型中(MLP、朴素贝叶斯等)

•这样解决了处理文本信号时输入长度不一的问题。最终表示文本的向量的长度只取决于卷积核的个数,而与输入的长度无关。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法原理与实践

循环神经网络(RNN)模型与前向反向传播算法

    在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系。今天我们就讨论另一类输...

15030
来自专栏绿巨人专栏

神经网络学习笔记 - 激活函数的作用、定义和微分证明

376130
来自专栏机器学习算法与Python学习

干货 | 深度学习之CNN反向传播算法详解

微信公众号 关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 前言 在卷积神经网络(C...

1.3K70
来自专栏IT派

用Python实现机器学习算法——简单的神经网络

导读:Python 被称为是最接近 AI 的语言。最近一位名叫Anna-Lena Popkes的小姐姐在GitHub上分享了自己如何使用Python(3.6及以...

10900
来自专栏WD学习记录

机器学习 学习笔记(19)神经网络

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

19620
来自专栏机器学习算法原理与实践

卷积神经网络(CNN)反向传播算法

    在卷积神经网络(CNN)前向传播算法中,我们对CNN的前向传播算法做了总结,基于CNN前向传播算法的基础,我们下面就对CNN的反向传播算法做一个总结。在...

22900
来自专栏机器学习算法与Python学习

线性分类器

线性分类 上一篇笔记介绍了图像分类问题。图像分类的任务,就是从已有的固定分类标签集合中选择一个并分配给一张图像。我们还介绍了k-Nearest Neighbor...

38590
来自专栏书山有路勤为径

卷积神经网络-目标检测

其中,bx、by表示汽车中点,bh、bw分别表示定位框的高和宽。以图片左上角为(0,0),以右下角为(1,1),这些数字均为位置或长度所在图片的比例大小。

13810
来自专栏重庆的技术分享区

吴恩达-神经网络和深度学习( 第三周 浅层神经网络:)

17140
来自专栏机器学习算法工程师

循环神经网络(RNN)模型与前向反向传播算法

在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系。今天我们就讨论另一类输出和模型...

23830

扫码关注云+社区

领取腾讯云代金券