深度学习、机器学习与NLP的前世今生

随着深度学习的发展,自然语言处理领域的问题也被打破。AlphaGo项目负责人DavidSilver曾说过“深度学习(DL)+强化学习(RL)=人工智能(AI)”。深度学习在自然语言处理中的主要应用是什么?工程实践中是否存在瓶颈?

首先,为什么简单地进行文本挖掘:NLP的目的是让机器理解人类语言,人与机器交流的技术。它在我们的生活中使用,如:智能测验,机器翻译,文本分类,文本摘要,这项技术正在慢慢影响我们的生活。NLP有着悠久的发展历史。在计算机发明之后,早期的NLP尝试从机器翻译开始,但在早期它并不是很成功。

大观分部的NLP技术水平是一本名为“句子,单词和训练”的书,用书,文字,句子和文章写成。我们开始学习写作,这些词是最基本的水平。一个词在语义上比在英语中的字母更丰富,但它的含糊不清仍然很差。因此,中文的一般处理情况是基于单词级别。单词层次的分析具有中文分词和分层实体识别来进行底层处理。

例如,要进行分类问题,深度学习节省的时间是进行特征工程的时间。这也是深度学习非常重要的原因:深度学习之后,有一个统一的文本挖掘处理框架。对于五个过程:

几乎所有任务都可以通过深度学习来完成。它的适应性和广度非常好。例如,传统的机器学习需要一种特定的文本分类算法,而这种算法不能做命名实体识别。在NLP领域进行深度学习之前,最具代表性的研究,对每个人来说最有影响力的工作是Word2Vec,它将一个单词和一个单词变成一个向量,这对我们来说是一项非常重要的工作。在过去,我们用单词作为一个单元,一个单词的表达几乎是一个热点。

威海,潍坊,枣庄等城市的空间非常接近,价值非常接近。它对我们实际工作的好处是增强我们的泛化能力,这是一件非常困难的事情。通过学习的表示,下一步是常见的网络结构,这是非常常见的,例如:CNN,GRU,RNN,Bi-LSTM。LSTM也是RNN。Bi-LSTM也是LSTM,除了Bi是双向LSTM,它可以学习前后语境的特征和语义。

该图中间的九个方格是卷积格,每个数相当于一个滤波器。它对图像的作用是将9平方网格与图像中相应的矩阵相乘,将结果相乘,并在卷积之后开始平移。翻译的步长是可选的。一般来说,我们是一步到位。一步一步走过去。有什么好处呢?对于图像,1个像素实际上并不代表任何东西。9像素有意义吗?这是有道理的,它可以学习直线,弯曲等功能,非常简单的图形功能,然后它将获得一层。

简单来说LSTM就是单元格换了一个更复杂的RNN,它可以做到RNN做不到的事情。看下面这张图,它比传统的RNN多了一个所谓的细胞状态,我翻译成“细胞”,一般也叫“cell”,它多了一个存储长期信息的“cell”状态。

看输入Ht-1和Xt,Ht-1是最后一刻单元隐藏状态的输出,Xt是当前输入,这个函数计算的两个输出是0-1之间的某个值。在第一步和第二步之后,开始单元状态更新的第三步。第一步的输出0-1和Ct-1的乘法确定在最后时刻剩余的单元状态。在第二步中,将系数和信息量相乘以确定剩余多少新信息,然后添加前一步骤和新信息中的剩余信息以进行更新。此更新是当前单元状态值。

这是一个文本,所以我将重点关注多对一和多对多的过程。

“达观杯”算法大赛很多同学在用传统的方式,包括baseline来做,很多人吐槽baseline好像有点高。但是我们没有做特殊优化,这是最基础的版本,做出来很高说明传统的机器学习还是非常好的,不是Deeplearning一统天下。传统的机器学习,需要构造特征,不同领域定制化程度很高,这个模型A领域用了,B领域几乎要从头再做一遍,没有办法把其他的特征迁移过来很好的使用。

它是单层CNN,选择几种类型的卷积,制作特征映射,然后使用max-pooling将每个映射的最大特征作为最终输出。结构非常简单,所以你只需要深入学习。知识很好。但由于它过于简单,CNN的自然缺陷在宽度上有限,因此会失去语义问题。DeepPyraminCNN是一个深度CNN。CNN的特点是结构简单。

这种模式的优点是它非常以人为本。在Word级别,以前的例程是相同的。嵌入和嵌入到下一个级别。这将在句子的下一级之前添加一层注意,让它知道句子中哪个词最多。重要的是,就像我们知道哪个词在句子中最重要。在最终输出之前添加注意,Attenton将学习哪些句子是最重要的。

这是一篇非常好的论文,我们怎样才能使用各种级别的信息,它是英文的,所以有一个char级,首先是char,通过RNN,CNN来做嵌入。在char级别学习关系,char级别关系与角色向量的黄色颜色合并,然后它将单词级别的红色字词向量添加到战斗中,两个是灰色,灰色。颜色是人工特征。只要看看每个人如何添加,这就是每个人的智慧。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180909A05I4C00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券