前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >干货 | 元旦,一起NLP!(上)

干货 | 元旦,一起NLP!(上)

作者头像
AI科技评论
发布2018-03-14 17:31:24
8940
发布2018-03-14 17:31:24
举报
文章被收录于专栏:AI科技评论AI科技评论

第一部分 | NLP的诞生史

《圣经》关于巴别塔的故事

1.从前,巴比伦人想建造一座塔直通天堂。

建塔的人都说着同一种语言,心意相通、齐心协力。上帝看到人类竟然敢做这种事情,就让他们的语言变得不一样。因为人们听不懂对方在讲什么,于是大家整天吵吵闹闹,无法继续建塔。后来人们把这座塔叫作巴别塔,而“巴别”的意思就是“分歧”。

2.虽然巴别塔停建了,但一个梦想却始终萦绕在人们心中:人类什么时候才能拥有相通的语言,重建巴别塔呢?

机器翻译被视为“重建巴别塔”的伟大创举。假如能够实现不同语言之间的机器翻译,我们就可以理解世界上任何人说的话,与他们进行交流和沟通,再也不必为相互不能理解而困扰。

知乎@刘知远老师的回答

于是 ,为了能够让机器理解文字

1949年,美国人威弗提出了机器翻译设计方案

随着时间的推移

新的想法推翻了陈旧的偏见

算法、处理器和数据集的飞跃发展

使得这个领域终于迈出了低谷

经验主义走向了理性主义

90 年代以来

基于统计的自然语言处理就开始大放异彩了

直到今天

它已经初步走向了成熟

好了!这就是自然语言处理的全部内容!

各位再见ヾ( ̄▽ ̄)

这当然是不可能的

接下来...

第二部分 | 从ArXiv 看 NLP 应用

研究领域

下图是和Natural Language Processing联系最紧密的一些词语。需要说明的是,做这个的时候DL还没有火,最近两年的热点词也没有出现。可以看出,当时的技术并不成熟,voice recognition,sentence models仍旧是比较热门的研究领域。

下图是从2011年开始,累计5年发表论文最多的5个领域,这5个领域可以说是当前国际自然语言处理的研究热点:

我挑选了一些近期比较有意思的应用领域,在此和大家分享:

1.文本生成

文本生成是比较学术的说法,通常在媒体上见到的“机器人写作”、“人工智能写作”、“自动对话生成”、“机器人写古诗”等,都属于文本生成的范畴。

除了生成(虚假)毕业论文,任何指定风格的语句(D.J. Trump,Shakespear, etc.),我们还可以利用神经网络来给图像、动图添加标题和评论。下面就是一个例子,来自Karpathy。

实际上,关于NLG的有趣的应用数不胜数,在此提供一个连接,有兴趣的同学可以深入了解~(https://www.zhihu.com/question/36853910)

2.虚拟助理

关键词: Question Answering / Sentiment Analysis / Open-Domain Chatting / Task-Oriented Dialogue

1)基于数据集和阅读理解的问答

2)开放领域闲聊

下面是基于阅读理解的开放领域闲聊工作机制,图片来自Reading Wikipedia to Answer Open-Domain Questions (陈丹琦)

3)任务导向的人机对话

图中是机器通过与用户交流,完成餐厅选择、预定任务。具体的模型将在后文中有所展开

许多人(包括我自己)在Siri刚刚问世的时候得到了并不愉快的体验,于是对人机问答的水平感到失望,并且再也没有尝试过用它。

其实,最近几年NLP的进展非常快,几乎两三年就能解决一个子领域的特定问题,所以我强烈建议大家多和Siri,Cortana,小冰,Echo等语音助手进行互动,你将被她们的进步所打动~

3.常识推理

关键词:Commonsense / Machine / Comprehension

深夜,父亲捧着故事书来到小儿子的床边,温柔的念到:“……王子看着躺在面前的睡美人,轻轻的俯身吻了下去……”“爸爸,睡美人是还没醒吗?”父亲轻声地说:“刚才爸爸讲了什么来着,王子出发之前吃了四碗韭菜大蒜馅的饺子,所以睡美人终于还是忍不住醒了。”

(¬、¬)

故事型常识阅读理解(Story Cloze Test (SCT))是近几年新提出的一个文本理解任务,在这个任务中,给定背景的四句话,我们需要从两个候选句子中选择出哪一个可以被前四句话推导出来。要完成这个任务,我们需要深入理解背景的四个句子,进行推理。

与之类似的还有ROC story cloze task,这个数据集涵盖了5W+篇短小的故事,每个故事由5句话组成。

数据集的任务是,给定前4句话组成的一个小故事,在候选的两句话中选出更合适作为当前故事的结尾的那句——所以是一个二分类任务。并且因为这些故事是人为干预的,所以保证在涵盖标准答案的5句话中,不会有杂乱无关的信息,所有信息都是为核心故事服务的。来看一个例子:

这些好玩的东西是怎么实现的?机器真的可以代替川普发言吗?所以计算机到底有没有理解语言文字?RNN、LSTM模型听起来很耳熟?敬请期待明天的《元旦,一起NLP!(下)》

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-12-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档