上亿商品的语言处理需求 | 京东AI NLP技术的研究与落地

导 读

从2010年起,深度神经网络开始在各个领域引发人工智能技术的重大突破。在语音识别领域,截止到2017年,借助于深度学习技术语音识别在Switchboard数据集上的词错误率下降到5.1%,基本可与人工识别相媲美;而在图像识别领域、机器翻译、语音合成技术等其他领域也取得了巨大进步,使得机器基本已经做到和人一样能听、能看、能说。随着人工智能技术这些领域的不断突破,人们也更期待看到自然语言处理技术(NLP)带来更多的创新。

语言作为人类区别于其他动物的独有发明,包含了真正的人类智慧。相比客观的物体识别和语音识别,自然语言处理天生带有一些主观猜测的特性,不仅要准确理解把握语义知识,还要做出正确的反应,相当于赋予机器智商与情商。

京东商城平台上拥有以亿为单位的商品,每一个商品都包含了详细的标题、副标题、详情页、评价区等信息,构成了一个由大量自然语言文字组成的电商购物环境。不仅如此,客服、物流、金融等相关服务,都需要使用大量语言、文字去满足用户的需求和体验。但这些庞大的语言处理需求,如果单靠人力来完成,将很难平衡其工作效率与成本。

针对这一系列亟需解决的问题和庞大的客户需求,京东人工智能平台与研究院的NLP科学家和算法工程师们着手从三个技术方向: 情感计算、自然语言生成和对话系统来提高人工效率,优化用户体验。

>>>> 一、情感计算

AI智能客服升级前后测试

今年京东618,在京东人工智能平台与研究院NLP算法工程师的努力下,已经完成了AI智能客服从IQ到EQ的升级,成为业内首个大规模商用的情感智能AI客服。它不仅仅能够精准识别消费者的情感,更能感受每一次交流中,情感浓烈与否的差别。让男生最头疼的“女朋友是一点点生气还是非常生气的问题”,也已经可以轻松解决。

基于深度学习的卷积神经网络(CNN)技术,提取人机对话中的深层语义,使得客服机器人能更准确地感知消费者情感的细微变化,不仅仅知道消费者当前的情感(如生气、开心、焦虑等),更能识别出消费者情感的深度(如一点点生气、很生气、非常生气等)。

不仅如此,京东NLP研究团队还采用了迁移学习技术,利用其他相似数据集提高模型准确度,使模型只需使用少量训练数据,就能达到精准识别的效果。

>>>> 二、自然语言生成

为你写诗、商品详情撰写是自然语言生成技术在商城平台上的代表性应用场景。

给定一组关键字,自然语言自动生成文本有三种方法。一是基于模板,输入关键词生成一句话,但在生成段落文字多生硬死板,缺乏多样性,结果也很不理想;二是通过关键词搜索的方式,机器选取几句话组成段落,这种方式虽然保证的单句的流畅性,但段落间上下文风格很容易违和;第三种基于生成技术的方式,通过采用深度学习方法,机器根据所给出的关键字,往往可以生成通顺、连贯并且具有创造性的文字段落。

由关键词生成文本的主要挑战是生成的不同句子之间缺乏连贯性。目前京东AI NLP团队采用基于生成的生成技术,通过深度学习方法,结合业务特性打磨出了一套独特的创新算法,该算法在保证单句流畅度的同时,也可以保持单句与单句之间逻辑连贯性。

具体做法是:在生成可以生成当前句的文本,也预测下一句话可能的关键词。这个系统保证了文本的流畅性,多样性,上下文关系的逻辑性,属业内首创。

AI为你写诗流程图

京东AI NLP团队的科学家和算法工程师们,利用AI技术赋能,将内容生成运用到了多个零售场景:AI为你写诗机器人可以根据商品特性以及用户情绪和场景为用户配上贴切的现代诗。该团队也创造性的将内容生成运用到商品详情页自动生成中,通过自动输入关键词生成商品描述并且生成文字可以接受客户的人工审核,可以进行人工修改,并将结果回流到系统中,继续优化算法模型,不断提升内容质量。从而构建出一套完整的AI数据闭环。

>>>> 三、对话系统

对话系统技术主要应用在智能客服的场景中,主体服务在售后,聚焦对退货、物流等类别的问题解答,现在京东NLP团队正在完善智能客服的功能,以期在更广泛的业务范围提供更有效的服务。

更广泛的业务范围意味着要接收的信息范围会更大,首先要用自然语言理解技术弄懂用户在问什么?用户的关心的是什么?意图是什么?如果想真正帮助用户,就不能简单一句对一句的对提问做出反应,而是要产生深入的人机交互,比如反问、澄清,利用知识作出应答和推荐。

业内主流的技术路线是基于神经网络技术结合统计学的特征分布和语言学的句法语义分析进行研究,而京东AI NLP团队是以Linguistics Motivated方法为主线,充分吸收采纳统计分析和神经网络的方法和工具。这样做的好处主要是可以使自然语言处理有比较好的可解释性与结构性。

---------------------END---------------------

原文发布于微信公众号 - 京东技术(jingdongjishu)

原文发表时间:2018-07-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

知人知面需知心——论人工智能技术在推荐系统中的应用

2315
来自专栏人工智能快报

通往未来人工智能的三条途径:量子计算、神经形态计算和超级计算

美国“数据科学中心”(Data Science Central)网站的编辑总监William Vorhies撰文表示,量子计算、神经形态计算和超级计算可以带来更...

3619
来自专栏大数据文摘

10个小方法让你的数据更引人注目

1514
来自专栏机器人网

微软披露“绘图机器人”最新研究进展

微软相信 2018 会是“人工智能之年”,并且投资了多个 AI 项目,比如几天前发布的一款能够读取和回答问题、准确水平与人类文件相当的 AI,且希望将这类技术用...

3234
来自专栏PPV课数据科学社区

【应用】机器学习商业应用入门及七个实例

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或...

3499
来自专栏奇点大数据

深度学习工程师的4个档次

最近不少朋友问我,转行做深度学习的话,能不能找到工作,能找到什么样的工作,能达到什么样的收入水平…… 这种问题其实不仅仅是存在与深度学习行业的入门和转型中的思...

3837
来自专栏新智元

【CCCF动态】计算机网络顶级会议趋势分析

概况 SIGCOMM(ACM Special Interest Group on Data Communications,ACM数据通信专业组)、MobiCom...

5325
来自专栏华章科技

10个小方法让你的数据更引人注目

你已经花了无数时间来创建和进行一系列的活动,现在你终于准备好了要把结果展示给老板看。你已经精心排练了你的演示报告,对整个工作感觉好极了,除了那张展现结果表述得不...

1172
来自专栏AI科技评论

学界 | AI 黑箱难题怎么破?基于神经网络模型的算法使机器学习透明化

编者按:人们可以训练人工智能 (AI)和机器人完成任务,但整个过程在黑箱中运作。我们并不知道 AI 和机器人是如何决策的。一家名为 OptimizingMind...

3217
来自专栏CDA数据分析师

【扫盲】如何区分人工智能,机器学习和深度学习

我们都熟悉“人工智能”这一概念。毕竟,这个词常常在热门电影中出现,如《终结者》、《黑客帝国》、《机械姬》。 但最近你也可能常常听到其他术语,如“机器学习”和“深...

22410

扫码关注云+社区

领取腾讯云代金券