干货分享 | 人工智能如何驱动未来教育发展？

达观数据

发布于 2018-04-02 10:43:43

7720

发布于 2018-04-02 10:43:43

文章被收录于专栏：达观数据

ABOUT

1月13日下午，在沪江北京研发中心、沪江智能学习实验室和CCtalk在京举办的“智能引擎，驱动教育”技术沙龙中，达观数据创始人&CEO陈运文作为受邀嘉宾，在大会上进行了《文本智能处理在教育行业的应用》的演讲，与来自云知声等企业嘉宾共话智能驱动下的教育未来发展，上百位在线教育行业技术大咖共议智能技术在教育行业的应用。

我们日常工作中不管是做教育还是接受完教育后踏上工作岗位，都会面临各种各样的文档资料和文本数据。

大家每天都在看的各种媒体内容，公司里大量的公文和办公资料，如果涉及到和客户打交道的会有客户评论意见，中文、英文等各种不同跨语言的资料。

一些垂直应用行业，比如法律行业从业者，会涉及法律文书，如果是人事会涉及到人事简历；证券、金融行业会涉及到很多财报和公告。所有这些文档资料，大部分今天还要靠人工来阅读理解分析。

如果计算机系统能够像人一样阅读文字内容，理解文字含义，并把很多重复、枯燥的工作自动化，很多人力就可以解放出来做更有意义的事情，这就是文本智能处理的目标。

文本挖掘已有很多成功应用，比如搜索引擎就是一个典型的自然语言处理（或叫文本挖掘）非常成功应用案例，并且其商业化也非常成熟。个性化推荐这几年风起云涌地发展，但目前文本挖掘技术本身还有很多难题需要攻克，中文方面其实还有很多困难。

NO.1 难点一：字词关系的处理

字词关系其实是语言的基本构成元素，但让计算机来阅读文字时就发现，要理清楚字词之间的关联关系很难。

计算机处理这些词会遇到很多严峻的问题。就中文来讲，中华人民共和国是大粒度的词，讲的是一个国家的概念，很多时候可以用单字“中”表达这个意思，比如中美关系、中俄建交，这个里面的单字中表达的就是中华人民共和国的意思。这个时候，粒度的大小表达的意思相同。

但另外一些情况，单字“中”有另外的含义，河南话的“中”是好的意思，什么时候这个词应该用大粒度表示，什么时候应该用小粒度表示是自然语言技术的处理难题。

还有局部转移，比如巧克力囊肿是很常见的疾病的名字，和巧克力没有关系，如果找这个病把巧克力找出来就不行。

以及我们常说的同义词和近义词，简单的方法是配一个同义词辞典，但是很多场景下同样意思的词有微妙的差异，比如父亲和爹，应用场景不同，如果简单划等号很容易出问题。比如跑步鞋和球鞋意思接近，但当我一定要找跑步鞋时，你给我球鞋是不对的。

还有很多中文中比较混乱的情况，例如：“意思”、“方便等等”都是中文里非常混乱的词汇，它在不同应用场景下意思很不一样。

处理大量文本尤其长文本的时候最重要的是指代归属问题，比如合同里会说该条款表示的是××，这个指代关系需要到上文里找，跨段落理解也非常复杂，需要做大量的算法研究。

NO.2 难点二：歧义语义的理解

语义的歧义层出不穷，比如：“咬死猎人的狗”， “五个公司的工程师”，这是一个典型的数量词和修饰对象存在歧义问题，我们需要了解到底是五个工程师还是五个公司。如果不给你上下文，两种语义理解都是对的。

还有一种歧义切分的问题，“乒乓球拍卖了”，一种断法叫做乒乓球/拍卖了，还有一个是乒乓球拍/卖了，两种断字方法都有一定的合理性，一定要结合上下文理解。

最后一个例子是指代歧义的例子，比如：“小张欺负了小王，老师喊了他家长”，想让计算机理解语义内容面临的歧义问题非常困难，我们也经常发现一个系统做文字的理解时经常发现答非所问，其实就是歧义在其中有很多障碍。

NO.3 难点三：多样化句式结构解析

同一个意思我们可以用不同的方式表达，这给计算机来做语义理解带来了很大障碍。常见的做法很多时候把句字的主语、谓语、宾语等核心语法元素识别出来，找到正常应该对应的位置才能更好地理解它的意思。

比如“你上班了吗？”这是中文当中常见的寒喧语言，这句话里的主谓宾位置可以任意调换，但意思不变。山东人特别爱上倒装句，喜欢把主语放在最后说。这句话便成了“上班了你？”

做语法理解的时候便要把“你”识别出来，让它再回到句子最前面才是正常的表达。做好这些复杂的语义结构分析才能把这些解决好。

NO.4 文本智能处理与人工智能

我们做智能处理的时候常用的技术是怎样的？给大家分享一些计算机学界处理文本多年的进化过程。

1956年达特茅斯会议以后，人工智能被正式提出来，当年科学家提出了两个AI目标，第一，在国际象棋能够战胜人类，第二机器翻译上能够超越人类，这两个目标达到了，1956年的科学家便认为AI就已经实现了。

1956年达特茅斯会议参与者首先提出了AI概念

今天来看，国际象棋上早就已经超过人类了，甚至围棋也已经超过人类，但是机器翻译领域，和翻译人士相比还有不小差距。所以语言的分析挖掘确实是一件很难的事情。

Hinton教授提出了深度学习的概念，最早的时候，五六十年代能想到的是词典加符号规则的方法，七八十年代有很多技术专家研究不同语言的语言规则和语法模型，在九十年代以后，统计学习的方法衍生出来，直到今天有大量技术是基于统计学习模型来实现。2010年以后，深度学习和知识图谱这些新的技术涌现出来了。

总体来说在学术界做文本智能处理技术分成两大路线，一个是结构主义，二是功能主义，从两个角度进行文本智能处理就是从词汇、篇章做各种各样的分析挖掘。

NO.5 文本挖掘基础应用的类型划分

做文本的智能处理，如果把它从基础功能抽象出来看，大概分成四类。

第一类：抽取

第一类是抽取。如果把文字处理看作一个信号处理问题，输入一串信号，它由一堆字词构成，如ABCDEF，我们现在要做的事情就是从里面抽取出关键信息。比如常见的标签、提关键核心内容等都是抽取的一部分。一个文本中的关键信息在不同应用场景下是不同的，但抽取这个过程可以把它抽象出来变成一个通用的算法模型。

第二类：划分

第二叫做划分。同样输入一串信号，是现在有一个跟不同应用场景相关的预置好的若干类别，在新闻行业中有自己的分类体系，任何一篇文章过来可以自动分到不同的类别里。

如果做情感，人类情感有几十种甚至上百种，先定义好人类情感类型，任何一个文本进来都可以看到它属于哪一种情感类型，这些都是分类应用。

第三类：转换

第三类叫做转换，输入一串XXX信号，转换成另外一串信号。