AI还有什么不会的?机器人写稿技术应用

摘要

全球人工智能与机器人峰会CCF-GAIR大会上,嘉宾分享了机器写稿的背景和现状,对于未来,他认为机器写稿不光是在媒体行业,也会跟一些游戏行业和情报行业合作。不过,他认为让机器学会推理和归纳,写出真正的深度报道是最难的,但这也是下一步研究的目标。

嘉宾演讲视频及PPT链接:http://t.cn/RnvWoea

机器写稿现状——国外

机器写稿这件事几年前在国外已经开始了。国外成立了多家知名公司,如ARRIA、AI、NARRATIVESCIENCE等。核心技术为自然语言生成引擎,主要应用于天气预报、空气质量、医疗报告、财经、体育等领域的写作。AI公司已经为美联社等多家单位生成数亿篇新闻报道,NARRATIVESCIENCE则持续为FORBES网生成新闻报道。主要面向的是英文和一些西方语言。

机器写稿现状——国内

随着人工智能技术的发展,机器写稿近几年在国内也逐渐受到关注。有一些媒体单位和学术机构进行合作,推出一些写稿机器人。还有一些互联网巨头,像百度、微软、腾讯等单位也在自己研发机器写稿技术。写稿类型主要侧重于体育、财经、民生和娱乐新闻等这些领域。

原创VS二次创作

我们认为机器写稿有两种方式,一种是原创,另一种是二次创作。原创是没有文字稿件,只有结构化的数据。我们基于结构化数据去生成新的稿件。例如天气预报、空气质量报告、财报、产品说明书等等。

二次创作则是基于已有的稿件内容来创作新的稿件。例如新闻综述、新闻摘要、新闻改写等等。

机器写稿所涉及到的NLP技术

两种不同的创作方式所依赖的技术也是不一样的。一种是自然语言生成技术,一种是自动摘要技术。自然语言生成技术直接从结构化数据或语义表达来生成自然语句,适用于原创。自动摘要技术基于已有文本素材来构建稿件,适用于二次创作。

还有一些其它的相关技术,例如文本信息推荐技术。就是我们在写稿件的时候想要引用名人名言、唐诗宋词,这时它就会做一个推荐,写到这里的时候自动插入名句。

还有文本复述技术。由于涉及到版权问题,如果直接把原始的内容复制过来会有抄袭的嫌疑,所以这时就需要做复述,把同样的语义通过不同的语言去表达出来。

应用于传统媒体 VS 自媒体

不同应用单位对于稿件的要求是不一样的。传统的媒体单位对稿件的要求非常严格,对错误零容忍,必须要人工审核后再进行发布。

对于自媒体来说,对内容的要求比较高,但可以容忍部分质量问题。例如部分语句连贯性不好、有少量错别字等。

不同的质量要求决定了对机器写稿方法的不同选择。

机器写稿人 VS 作者

机器人和记者之间目前应该是一种分工协作的关系。机器人写稿的速度快,不知疲倦,善于写简讯。但机器人只能进行低层次、重复性的劳动。而记者具有高度思维,能写深度报道。可以进行高层次、有创造性的劳动。

记者在写稿件的时候是能够清楚地知道自己所写的内容,但机器人在写稿件的时候虽然他把每一个句子都写了出来,但实际上并不能理解自己所写的内容。

我们在机器写稿方面的研究和应用

我们做了很多基础研究,包括自动文摘、自然语言生成等技术。另外也做了很多应用技术研究,像新闻资讯自动生成、新闻综述自动生成以及用户评论的自动生成。

新闻资讯自动生成

我们的写稿输入是结构化的数据以及可能有的文字素材。会生成长度可控的稿件,可以生成几十字的短讯,也可生成上千字的长篇资讯。另外还是多领域的,有体育、民生和娱乐。

体育赛事简讯自动生成

我们会从网上抓取一些体育赛事的数据,基于这些数据做数据分析,再做文档规划和语句的实现。就能够生成一些简单的赛事报道。报道很短,在几十字左右。而为了让报道更加生动,我们对于同样的消息会有不同的语言进行表达。

体育赛事长篇报道自动生成

有一个很重要的素材叫体育的直播文字。每当有著名的梯云比赛的时候都会有文字直播,通过视频直播转成文字。文字直播中通常包含了主持人对比赛精彩细节的描述。通过机器学习手段来把精彩描述挑选出来,最终放到报道中。这个报道就比较长,能够达到上千字以上。

体育直播很常见,涵盖了所有的重要比赛。它的特点首先就是信息丰富,体育直播文字涵盖比赛所涉及的任何重要信息。其次是灵活性好,不同比赛能构建不同风格的新闻。第三点就是实时性好,在比赛任一时间点都能及时构建并发布新闻。

生成新闻报道的过程首先是对直播文字进行语句的排序,再利用机器学习的手段进行语句的智能选择,最后生成一个平均长度超过1000字的赛事报道。

娱乐新闻自动生成

可以基于微博生成娱乐新闻。现在明星经常会发微博,一些微博可以构成我们的娱乐新闻。所以我们会有一个机器学习的手段去自动判别明星发的每一条微博是否有可能成为新闻,有没有新闻价值。继而判断微博下的评论哪一些具有价值,然后把微博和它的评论以及相关的背景信息组合在一起,形成一条娱乐新闻。

新闻综述自动生成

新闻综述自动生成是根据同一事件的多篇新闻报道,自动生成篇幅较长的事件综述。

因为要构成综述,所以不是以句子为单位,而是以一个子话题为单位。对新闻进行子话题的划分,得到其中的一个子话题。每个子话题对应一个段落,最后对子话题进行重要性的排序。最后对子话题进行选择然后合并,最后得到一个完整的事件综述。这个综述的长度可达上千个字节。

用户评论自动生成

除了生成事实型的新闻之外,我们也尝试去生成用户的评论。这个主要是以产品评论为研究的对象,我们采用的是一个深度学习的模型。

我们在机器写稿方面的应用

我们分别与今日头条、南方都市报、广州日报合作推出了小明、小南和阿同写稿机器人。

小明写稿机器人基于体育赛事数据与赛事直播文字既能写短讯,又能写上千字的长篇报道。

小南写稿机器人为南方都市报APP写民生新闻与两会新闻。

写稿机器人阿同是与广州日报合作推出的写稿机器人,两会期间进行各类工作报告的热词与关键数据分析与解读。

趋势展望

机器写稿在各行各业的应用将越来越广泛,不光是媒体写新闻会用到,其它行业也会用到。

我们希望让稿件具有态度和立场,更有人性化。通过归纳和推理,写出深度报道。

今天的分享就到这里,谢谢大家!

原文发布于微信公众号 - IT大咖说(itdakashuo)

原文发表时间:2018-03-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

太酷炫了!万科最新大数据市场研究手段曝光!

近期,由上海万科与多家高校及城市数据团合作搭建的专属于万科的大数据分析平台正式上线了。这是万科在推动房地产行业的大数据化、引领地产行业转型潮流上踏出的重要一步。

1591
来自专栏灯塔大数据

原创译文 | 微软放大招!面部识别无歧视,Face API更加精准识别人类肤色

微软近日在博客文章中宣布了Face API的重大更新,它改进了面部识别平台识别不同人种性别的能力,此前,这一直是计算机视觉平台面临的挑战。

964
来自专栏企鹅号快讯

谷歌再出黑科技!人工智能模拟的人声和真人几乎难以分辨

谷歌再出黑科技 用人工智能模拟出来的声音 几乎可以和真人以假乱真 在我们的印象中,机器的声音都是冰冷的电子音,虽然人类也一直致力于研究让机器“说人话”,但搞出来...

4626
来自专栏牛客网

秋招结束,一波干货面经分享。

秋招陆陆续续大概进行了一个月,目前基本结束了,拿到的offer有腾讯、阿里和网易,小弟在这分享一波感想,回馈牛客。

1145
来自专栏王相军的专栏

泛谈大数据 + AI 在征信行业的应用

AI被炒的很热,作为道行很浅的小菜鸟,对AI的了解也是知之甚少。不过,最近看了很多关于如何将AI应用到征信行业的东西,现结合自己的理解,总结概括一下,不妥当的地...

3571
来自专栏钱塘大数据

人工智能/数据挖掘/机器学习/统计学之间有什么区别?

时间过的真快,本期为“数据挖掘”专题推送的最后一期了,520这天,就给大家介绍个特有意思的文章,技术男们有福了,超级干货! 前段时间,作者在 stats.sta...

2954
来自专栏程序员笔记

读书「精进」

2016
来自专栏量子位

对话余凯:人工智能未来何在?深度学习+贝叶斯网络

量子位 | 若朴 牧北 发自 亚布洛尼 2月的亚布力仍是一片冰雪世界。 上周,包括李彦宏、雷军、杨元庆、王石、冯仑、沈南鹏在内的一众企业家,齐聚这个东北小镇,共...

3687
来自专栏人工智能头条

为何机器学习的黄金时代才刚刚来临

1102
来自专栏PPV课数据科学社区

大数据处理PK,美国不知道高明到哪里去了

“大数据”(Big data),实际上意译作“高频复杂数据”更贴切一些,也更便于非从业者直观了解这个词的含义。 由于“大数据”的大并非指单纯的数据量庞大,即便是...

2866

扫码关注云+社区

领取腾讯云代金券