前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI算法如何学习写作政治演讲?

AI算法如何学习写作政治演讲?

作者头像
新智元
发布2018-03-14 15:59:01
1K0
发布2018-03-14 15:59:01
举报
文章被收录于专栏:新智元新智元

政治演讲经常是由政客的亲信和心腹写作而成。AI算法可以做的一样好吗?

“不要想着国家为你做些什么,而要想着你能为国家做些什么。”

——肯尼迪,1961年

当涉及到政治演讲时,伟大的演讲少之又少。但是普通的政治演讲,例如那些由美国国会议员在讨论中给出的,却数不胜数。

而且它们也非常相似。这些演讲倾向于遵从一个标准格式,重复相似的论点,甚至使用相似的短语来表示特定政治联系或观点。它们的内容几乎就像是由某种算法决定的。

这提出了一个有趣的问题——机器有可能自动写出这类政治演讲吗?

今天,我们得到了答案,这要归功于马萨诸塞大学安默斯特分校(UMass Amherst)Valentin Kassarnig的工作,他创造出了一个人工智能机器。该机器已经学会如何写作与真实演讲极其相似的政治演讲稿。

这个方法在原理上很直白。Kassarnig用了53次美国国会议员讨论会中将近4000个政治演讲片段数据集来训练机器学习算法生成演讲。

这些演讲由50000句子组成,每个句子平均有23个单词。Kassarnig也根据政治党派分类(民主党或共和党),还根据它对某个话题持反对还是支持态度分类。

当然,如何分析这些数据库才是重点。尝试了很多技术之后,Kassarnig选定了一个方法,该方法基于n元短语模型(n-grams),n个词汇或短语的序列。他开始使用一种词性(parts-of-speech)方法来分析文本,该方法标记了每个词汇或短语的语法角色(是名词、动词还是形容词等等)。

接着,他查看了6元短语(6-grams),还计算了给定5个词语后出现某个词语或短语的概率。“这让我们很快判断出在出现某5个词之后应该出现哪个词和出现该词的可能性。”他说。

自动生成演讲的过程自动遵从这种规律。Kassarnig以告诉算法它应该写哪种演讲作为开始——是为民主党还是为共和党而写。接着这个算法会挖掘该类别演讲的6元短语数据库来找到这类演讲中所有被用作开头的5元词语。

然后,这个算法从这些5元词语中随机选择一种来开始它的写作。接着,它根据这个5元词语来选择下一个词汇。“随后系统开始一个一个地预测下一个词语是什么,直到它预测到文章应该结束了。”他说。

当然在这个过程中也用了一些技巧。例如,算法知道某个特定主题出现在演讲中的概率。然后它就能通过这篇演讲稿里已经有了什么话题、这些话题被陈述得是否完善来选择要再添加什么话题。

结果意外得好。这是一个为民主党自动生成的一篇演讲:

“议长先生,多年以来,本分却不幸的消费者们一直能力申请破产保护、清偿他们合理有效的债务。这个系统应该是这样运行的,破产法庭通过评估包括收入、资产、以及债务在内的众多因素来决定哪些债务可以被偿还、消费者能够如何重新恢复元气。请维护他们的成长并给予他们机会。请通过这项法律吧!”

考虑到除了开始演讲的分类、政治演讲数据集的6元短语分析和一些小技巧外没有其他的训练,这令人印象深刻。Kassarnig根据一些标准(如语法正确性、句子过渡、演讲结构和内容)评估了这些演讲,最终发现它们总体上来看表现良好。“特别是,大部分演讲的语法正确性和句子过渡表现都非常好。”他说。

尽管如此,Kassarnig并不认为他的算法会以飓风一样的速度占领政治演讲的舞台。“虽然有这样的好结果,这些方法不太可能会被政客用于生成演讲。”他说,也许可能是因为想要利用该算法的不择手段的政治家太稀少了吧(咳)。

然而,这种算法可被用于生成其他类型的文本。Kassarnig表示说,有了对于同一个事件的一些不同报道以后,它可以用来对于这个事件生成一篇新的报道文章。另一个可能是生成关于arXiv论文的博文,在拥有大量类似博文作为数据库的情况下(咳)。

并且他鼓励任何人都可以尝试一下,他的所有源代码都在Github中公开(https://github.com/valentin012/conspeech)。“我们很希望其他人尝试使用,修改并扩展它,”他说,“特别欢迎人们提出关于改善算法的反馈意见和想法。”

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-01-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档