首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI生成文本“套路深”?新研究找到识别新方法

有没有觉得有些文章读起来怪怪的?就像哪里不对劲,但又说不上来?也许是形容词太多,也许是句子结构翻来覆去就那几样。这时候你可能会嘀咕,问自己这究竟是人写的,还是人工智能捣鼓出来的?

最近,美国东北大学的几位研究人员就琢磨着解决这个问题。他们的新论文分析了人工智能生成文本中的“语法”,也就是句子的组织方式。结果发现,相比人类,AI 模型更爱用一些特定的“名词-动词-形容词”组合模式。

这项有趣的研究已经在预印本平台 arXiv 上公开了。

AI文本的句法“套路”

东北大学数据科学项目主任拜伦·华莱士教授表示,这项研究从经验上证实了他们的一种感觉,那就是很多 AI 生成的内容都像是套公式一样,并强调说它们真的是“公式化”的。

其实,我们早就知道 AI 模型喜欢重复使用某些词语——华莱士教授举了个例子,说像是 ChatGPT 曾经就特别爱用“深入探讨(delve into)”这个表达。但是华莱士教授认为,仅仅关注重复的词语“并没有完全揭示 AI 生成文本的秘密”。于是,他和东北大学的博士生尚塔尔·沙伊卜决定更进一步,不再盯着 AI 用了哪些词,而是研究它们的“句法”,也就是遣词造句的方式。

研究人员让各种各样的 AI 模型生成不同类型的文本,比如电影评论、新闻报道和生物医学研究的摘要。然后,他们仔细分析了这些 AI 生成的文本,识别出他们称之为“句法模板”的东西——某些词性(比如名词、动词、形容词)按照特定顺序排列并被 AI 模型重复使用的模式。

不同 AI 模型偏爱不同

有趣的是,不同的 AI 模型偏爱的“句法模板”还不一样,华莱士教授形象地比喻说,这就像每个模型都有自己的“签名”一样。有些模型特别喜欢用成对的形容词。

比如,在一段电影《旧金山最后一个黑人》的评论摘要中,AI 在短短两段话里就用“独特且强烈的观影体验”、“极具原创性和令人印象深刻的导演处女作”以及“充满魔力且发人深省”这样的表达。

沙伊卜指出,人类也会在写作中使用这些模板,他们的句子结构也会有重复,但是相比 AI 模型,人类使用这些模板的频率要低得多。

她还补充说,AI 模型的大小似乎并不影响它生成这些模板的倾向。他们分析的所有模型都比人类更频繁地重复使用这些句法模式。

不过,研究人员也发现,在不同类型的写作中,AI 模型和人类使用这些模式的频率差异有所不同。在有特定写作规范的生物医学文献中,这种差距要小得多。而在电影评论和新闻报道这类更具创造性的文体中,AI 模型重复使用相同模式的频率远超人类,沙伊卜这样说道。

那么,这些“句法模板”是哪来的呢?

沙伊卜解释说,他们发现这些模板实际上并不是模型在生成过程中随意创造出来的,并且他们能够在模型的训练数据中找到大约 75% 的这些模板。

沙伊卜坦言,这项研究并不是要创建一个百分之百准确判断文本是否为 AI 生成的方法。但是,它提供了一个新的视角,让他们在讨论 AI 生成文本时,不再仅仅关注个别词语,而是将目光投向整体的写作风格。

在沙伊卜看来,这项研究最大的意义在于,它为人们提供了一个工具,能够更精确地解释为什么某些文本读起来会觉得“怪怪的”,尤其是在人们看到大量类似文本的时候。她认为这项研究提供了一种判断AI文本的分析方法,而不是仅仅依赖于一种模糊的感觉。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OleHlmTafoP1OYXtfRwUia7w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券