首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何“喂食”和训练ChatGPT,让它变得更像人?

集微网消息,像ChatGPT这样的大型语言模型总是提供一些看似正确合理的内容。这些聊天机器人,很多都是基于生成式人工智能技术,经过训练就能够通过在互联网上搜寻相关信息,组装出连贯的答案来回答用户的问题。它可以写出令人信服的学生论文、权威的法律文件和可信的新闻故事。对此,金融时报特约专栏作者做了专门分析。

但是,由于公开的数据包含错误信息和虚假信息,一些机器生成的文本可能并不准确真实。这促使人们争相开发工具来确定文本是由人还是由机器起草的。科学界也在努力适应这个新时代,现场讨论是否应该允许聊天机器人撰写科学论文甚至提出新的假说。

区分人工智能和人类智能的重要性与日俱增。本月,瑞银(UBS)分析师透露,ChatGPT是有史以来增长最快的网络应用,今年1月份月活跃用户达到1亿。对此有些部门认为,亡羊补牢,为时已晚。周一,国际文凭组织(International Baccalaureate)表示,只要学生标明引用,就允许他们使用chatGPT写论文。

这项技术的创造者坦言了它的局限性。OpenAI首席执行官萨姆•奥尔特曼(Sam Altman)去年12月警告称,ChatGPT“在某些方面足够出色,从而造成了无所不能的假象......我们在稳健性和真实性方面还需继续改进。”该公司正在为其输出的内容开发加密水印,这是一种机器可读的标点符号、拼写和词序序列;并且正在打磨一种“分类器”来区分合成文本和人类文本,并使用两者的例子来训练它。

斯坦福大学的研究生埃里克·米切尔(Eric Mitchell)认为分类器需要大量的训练数据。他和同事们一起提出了DetectGPT,这是一种“零样本”发现两种文本差异的的方法,不需要聊天机器人事先学习。相反,该方法使聊天机器人转向自身探测自己输出的内容。

它的工作原理是这样的: DetectGPT询问聊天机器人对一个样本文本的“喜欢”程度,用“喜欢”这一简写代表该样本与它自己创建的文本的相似程度。然后DetectGPT略微改变样本措辞,进一步“扰乱”文本。其假设是,相较于更改后的机器文本,聊天机器人对更改后的人类文本的“喜欢”程度更加多变。研究人员声称,在早期的测试中,该方法在95%的情况下能正确区分人类作者和机器作者。

需要注意的是: 该研究结果尚未经过同行评议;这种方法虽优于随机猜测,但在所有生成式人工智能模型中的效果并非同样可靠。对合成文本进行人工调整可能会愚弄DetectGPT。

这对科学来说意味着什么?科学出版是研究的生命线,将思想、假设、论点和证据注入全球科学经典。一些人已经迅速将ChatGPT当成研究助手,有几篇论文将人工智能列为合著者,引发争议。

Meta公司甚至推出了一个名为Galactica的科学文本生成器。三天后就被撤回了。所有的错误回答中,还有一段虚构的熊在太空中旅行的历史。

蒂宾根马普智能系统研究所(Max Planck Institute for intelligence Systems)的迈克尔•布莱克(Michael Black)教授在推特上表示,Galactica公司关于对他研究领域的多项询问给出的回答令他感到“困扰”,其中甚至将假论文归于真正的研究人员。“在所有情况下,Galactica的答案都是错误或带有偏见的,但听起来却很正确和权威。我认为这非常危险。”

这种危险来自于似是而非的文本溜进了真正的科学文献,使文献中掺杂着虚假的引文,并永远扭曲经典。现在《科学》杂志完全禁止机器生成的文本;《自然》杂志允许在声明的情况下使用,但禁止将其列为合著者。

文章最后指出,人们大多不会查阅优质期刊来指导自己的科学思考。如果狡猾的人有这样的倾向,这些聊天机器人可以按需喷出大量包含虚假引用的伪科学,解释为什么接种疫苗没有效果,或者为什么全球变暖是个骗局。这些误导性材料被发布在互联网上后,可能会被未来的生成式人工智能吞噬,进而产生新一轮的谎言,进一步污染公共话语。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230303A025WG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券