首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

当AI遇到“中文十级”难题:也得与时俱进

在人工智能领域,“认识语言的人得到世界”是一个普遍的共识。其中,自然语言处理(NLP)可以帮助人工智能识别人类语言,被称为人工智能语言的“皇冠上的珍珠”。

当人工智能自然语言处理技术遇到诸如“希望你管不管”、“掉地跌地下”“”“”“”“”“”“”“小”“意”等多义词、“我们”“中间”和“O”等方言时。方言,如何“理解”这些“汉语”十级“陈述”是什么?记者最近采访了有关成都科技大学未来活动的相关专家。

分词可以使句子机器仍然工作。

NLP是机器用来理解和处理人类自然语言的技术。NLP与计算机视觉和语音处理的区别在于信息处理的类型。

“计算机视觉主要涉及图像和语音技术,而NLP主要涉及文本理解。”云浮技术和CEO的创始人张文斌说,在人工智能中,语音识别是耳朵,语音合成是嘴,计算机视觉是眼睛,NLP是NLP。负责将抽象词符号转换成计算机能够理解的语言。

“汉语十级”的一些语句对人类来说很难理解,更不用说计算机了。张文斌说,在口语和书面语中,汉字往往没有词和词之间的界限。即使机器能准确地识别单词,也很难理解它的含义,例如,各种地方口音和方言也是一个“绊脚石”。

自然语言处理从最小的语义单元“Word”开始,即分词算法。这是最简单和最成熟的。”张文斌说,NLP的算法分为语法层次和句子层次分析,其中分词是为了切分单词,让机器理解哪些词构成单词,哪些词构成句子,从而理解整个句子的意义和整段。但在分词的实际应用中,仍然存在着各种各样的问题。

张文斌解释说,首先,分词标准是模棱两可的,歧义的,新词和实质词是困扰的。例如,“乒乓球、拍卖会”和“乒乓球拍,卖完”都是根据上下文而正确分割的。其次,每年网络词汇的出现,“神马”、“潜移默化”、“佛教”等不存在的词语也需要计算机理解。

人工智能的新方法

机器如何阅读上下文,以便进一步理解整个段落的意义?

“我们将尝试使用暂停信息,当我们听人类语言作为一个分词算法的补充。”翟继博,翻译翻译业务主任说。

对于人工智能工程师来说,更重要的算法是深层算法,如实体识别和属性提取。它是识别实体,如姓名、地名、机构名称,然后绘制实体之间的关系,并明确句子中不同实体的不同属性。“张文斌说,有许多不同的算法,例如作为情感分析,分析文本中的情感包含什么,积极的,消极的或中立的;文献摘要,以及长文本的一百或二百个简短摘要。基于这些算法,我们可以做大量的NLP导数应用,包括自动问答、机器翻译等。

如何识别方言?在新的翻译机器设备中,首次在河南方言、东北方言、广东话等方言中引入方言翻译功能,或将其翻译成外语。翟继博认为,根据不同的方言类型,机器采用不同的翻译过程——河南方言和东北方言属于北方方言区,可以先译成普通话,然后译成外语;其他南部语言,建立独立的语料库,并直接从粤语翻译成外语。考虑到方言中有许多地方特色的单词、语言和词,“男性崛起”、“中间和非”也可以作为独立的语料库单独学习。“人工智能的优势在于,自然语言处理可以不断地进行。”积累用户的语言资料,学习新词语,不断更新自己的数据库和语料库。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180806A0GLYD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券