专栏首页量子位细思极恐!只需54块钱,你也能让AI伪造一系列联合国发言

细思极恐!只需54块钱,你也能让AI伪造一系列联合国发言

安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI

联合国发言生成器了解一下?

最近,有研究人员真就搞出了一个。手握这个生成器,你就可以无限生成逼真的联合国演讲风格的内容。

快速传递假新闻、随口就能生成仇恨言论、冒充知名人物进行演讲……这个模型让人细思极恐,令人深感不安。

做这样一个系统时间和金钱成本很高吧?

这么想就大错特错了。研究人员表示的,整个模型只需要13个小时的训练,总共花费不超过7.8美元,也就是人民币54元。

也就是说,半天时间,一顿晚饭钱的成本,你也能让AI伪造一系列联合国发言。推特网友评论道,现在终于理解为什么有些模型不应该开源了。

可怕。

真假难辨的效果

研究人员用三类任务展示了这个模型的效果,在每种任务上,模型都能Hold住相关场景,生产出假新闻、假言论。

一是一般性的主题,比如气候变化、核裁军等。

气候变化仍然是所有国家关注的主要问题,世界各国领导人和马里政府重申了这一承诺,呼吁联合国通过一系列解决众多人面临的严重局势的紧急措施,面对气候变化。作为一个穆斯林国家,穆斯林国家坚信促进和平、安全与发展的国际合作的重要性。

在这一段假新闻里,无论是口吻、用词还是行文逻辑,AI模型生成的文本都显得逼真。

第二种任务是模仿联合国秘书长的口吻对事件进行公开评论

相比于第一种任务,这个任务需要的观点输出更明确,难度也进一步提升。

AI模型的表现如何?看看生成效果:

联合国秘书长强烈谴责这种发生在摩加迪沙的恐怖致命袭击事件。……(此处有省略)我们希望国际社会也将响应对“非洲之角”和平与安全的呼吁,并希望苏丹将继续执行自己的安全理事会决议制度。

如果是呼吁和平的言论还好,最可怕的是,这个模型还能产生恶意煽动性言论。

研究人员展示的第三种效果就是生成充满恶意和煽动性言论,到底能到哪种程度。

在这个任务中,AI分别就“难民是恐怖分子”和“移民是艾滋病传播的罪魁祸首”两个命题生成假言论,内容更是让人看了脊背发凉。

这样一个模型,到底是怎样在半天时间+54块钱成本的情况下做出来的?

开源模型

研究人员表示,从头开始训练语言模型是一项复杂的任务,需要大量的数据和计算力来进行,借助别人已经开源的项目进行研究,也不失为一种性价比高的选择。

在这个项目中,训练数据是由Baturo等此前研究汇集的1970-2016年联合国7507次发言的文本。

在这么多次演讲中,已经讨论过很多话题。研究人员表示,在使用这个数据集前,这些演讲被分成了283593个段落,并清理文本中的噪声,使用spaCy进行标记。

论文What Drives the International Development Agenda? An NLP Analysis of the United Nations General Debate 1970-2016地址:

https://arxiv.org/abs/1708.05873

数据集搞定后,模型训练又成了大问题。在这个阶段,研究人员采用了开源模型:AWD-LSTM模型进行预训练。

这是2017年由Salesforce研究院的Stephen Merity等人提出的模型,论文中提出了一系列基于词的语言模型正则化和优化策略,这些策略可在不改变现LSTM模型的基础上应用。

论文Regularizing and Optimizing LSTM Language Models地址:

https://arxiv.org/abs/1708.02182

研究人员用Wikitext-103数据集进行预训练,借助fast.ai库,最终,AWD-LSTM模型在NVIDIA K80 GPU上训练不到13个小时,就完成了模型的训练,成本仅用了7.80美元(54元)。

多重身份的一作

这篇论文出自Joseph Bullock和Miguel Luengo-Oroz之手。

一作Joseph Bullock有3重身份:一是United Nations Global Pulse小组成员,二是英国杜伦大学(Durham University)数据科学研究所的一员,三是杜伦大学粒子物理现象学研究所的成员。

Miguel Luengo-Oroz是United Nations Global Pulse的数据科学家。

这篇论文也将出现在长滩上举办的Conference on Machine Learning AI for Social Good Workshop上。

传送门

论文Automated Speech Generation from UN General Assembly Statements: Mapping Risks in AI Generated Texts地址:

https://arxiv.org/abs/1906.01946

原报道地址:

https://www.technologyreview.com/f/613645/ai-fake-news-deepfakes-misinformation-united-nations/

本文分享自微信公众号 - 量子位(QbitAI),作者:关注前沿科技

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一文看尽飞桨PaddlePaddle最新升级:5大优势,更低门槛使用深度学习

    从Paddle Fluid v1.0以来,飞桨致力于打造更好的用户体验,趁着百度开发者大会,也为用户精心准备了一份大礼,在开发、训练及部署全流程上进行了全新升级...

    量子位
  • Kaggle大牛小姐姐自述:我是怎么成为竞赛中Top 0.3%的 | 干货攻略

    天天跟数据打交道的研究人员,都有一个成为Kaggle顶级大师(Grandmaster)的梦想。

    量子位
  • 周星驰的睡梦罗汉拳心法,现在AI也学会了:梦中“修炼”,醒来“实战”

    刚刚,两位人工智能界的大牛:Google Brain团队的David Ha(从高盛董事总经理任上转投AI研究),瑞士AI实验室的Jürgen Schmidhub...

    量子位
  • 简析集成学习

    当我们第一次接触机器学习问题的时候,面对着大量的数据和一个分类/回归的机器学习任务,我们本能地会采取这样的方式:选择一个决策树分类器或一个Lasso回归模型,将...

    企鹅号小编
  • 2017 知乎看山杯从入门到第二

    利用一个暑假的时间,做了研究生生涯中的第一个正式比赛,最终排名第二,有些小遗憾,但收获更多的是成长和经验。我们之前没有参加过机器学习和文本相关的比赛,只是学过一...

    AI研习社
  • 黑客视角:避免神经网络训练失败,需要注意什么?

    确保网络正常运行的关键因素之一是网络的配置。正如机器学习大师 Jason Brownle 所说,「深度学习神经网络已经变得易于定义和拟合,但仍然难以配置。」

    AI研习社
  • 美团搜索广告排序推荐,从机器学习到深度学习的模型实践

    机器学习AI算法工程
  • 【机器学习】机器到底在学习什么?

    机器识别手写数字的问题早已经解决,MNIST数据集http://yann.lecun.com/exdb/mnist/如今机器识别的准确率已经超过99%。事实上,...

    量化投资与机器学习微信公众号
  • 算法大赛神器:集成学习方法关键点介绍

    本文的目的是介绍集成学习方法的各种概念。将解释一些必要的关键点,以便读者能够很好地理解相关方法的使用,并能够在需要时设计适合的解决方案。

    deephub
  • 在神经网络中提取知识:学习用较小的模型学得更好

    在传统的机器学习中,为了获得最先进的(SOTA)性能,我们经常训练一系列整合模型来克服单个模型的弱点。但是,要获得SOTA性能,通常需要使用具有数百万个参数的大...

    deephub

扫码关注云+社区

领取腾讯云代金券