前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[新知] MIT开发能修改维基百科文章错误的自动系统

[新知] MIT开发能修改维基百科文章错误的自动系统

作者头像
阿泽
发布2020-03-26 17:14:27
3760
发布2020-03-26 17:14:27
举报

维基百科自动编辑系统,能够根据输入的新资讯,判断维基百科文章中错误的地方进行修复。

麻省理工学院(MIT)研究人员创建能够自动维护维基百科的系统,修正文章中错误的资料,减少需要花费的人工编辑时间。维基百科具有数百万篇文章,文章需要不断更新以呈现最新的资讯,包括进行文章扩展、重写或是资料修改等,而这些工作需要由全世界的志工手动完成。

这个新的自动系统,能够以人工智慧修复维基百科文章中的错误,其使用一系列的演算法,透过利用网路上最新的资讯,辨识出文章中的错误,并且生成句子修复错误。该系统背后裡用了许多文字生成技术,可用来辨识两个句子间矛盾的地方,并将他们融合在一起。

目前也存在许多自动编辑维基百科的机器人,但这些工具通常用于减轻破坏,或是将严格定义的资讯放进预定义的模板中,研究人员希望新开发的系统,只要给定一段非结构化的句子,就能以人性化的方式,修改维基百科文章中的句子,研究人员提到,现存的机器人多数是以规则执行任务,但是他们的系统可以推论两个句子矛盾之处,并且产生连贯的文字。

用来训练自动系统模型的资料集,便是包含正确资讯的语句以及维基百科语句所构成的句对,而这些句对会被标上同意、不同意或中性三种标籤,同意代表正确资讯的语句和维基百科的语句资讯相符,不同意则反之,中性则代表没有足够的判断资讯。

自动化系统的输入有两个,一个是维基百科文章中过时的句子,另一个为包含正确资讯的语句,系统需要根据后者,自动调整维基百科中错误的句子,过程可能需要删除和保留特定单词、更新部分的事实,或是保留样式和语法。

自动化系统由两个模型组成,其一是事实检查分类器,透过预训练将句对标记为同意、不同意或中性,而系统处理的重点在于不同意标籤的句对,而另一个分类器,则负责辨识维基百科错误的语句中,导致句对被标记为不同意的单词,并且以双编码器与解码器框架,将包含正确资讯语句的重点单词,融入到维基百科需要修改的语句,输出最终的句子。

经SARI评估证实,新模型所产生的结果,得分都高于传统的方法,SARI方法是评估机器删除、增加和保留字词,与人工修改的差异。研究团队提到,新模型所进行的事实修正更为准确,也跟人类更为相近。

Automated system can rewrite outdated sentences in Wikipedia articles

http://news.mit.edu/2020/automated-rewrite-wikipedia-articles-0212

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Flink实战应用指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档