首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

因机器人写作过于蹩脚,美国最大报业集团暂停使用AI生成文章

今日,据外媒报道,Gannett的一位发言人证实,该公司已经暂停使用LedeAI这样的人工智能工具来撰写文章。

据悉,Gannett是美国第一大报业集团,拥有数百家地方报纸,此前,该公司一直在试验使用人工智能驱动的体育报道写作工具LedeAI。然而,读者们很快指出,其中许多文章缺乏细节,写得十分糟糕,读起来就好像作者从未看过相关的体育比赛一样

外媒声称,LedeAI 生成的新闻相当蹩脚,该 AI 在此前报道一篇俄亥俄州举行的足球比赛时,将“足球比赛”称为“运动类型的近距离接触”,而在介绍一场高中足球比赛的获胜者时,该 AI 称获胜者“换上了胜利的装备”。

此外,外媒还发现,该 AI 犯了明显的“占位符错误”:沃辛顿基督徒队 [[WINNING_TEAM_MASCOT]] 在周六的俄亥俄州男子足球比赛中以 2-1 击败了韦斯特维尔北部队 [[LOSING_TEAM_MASCOT]]

该公司的发言人表示:“我们已经暂停了高中体育报道使用LedeAI的实验,并将继续评估供应商,同时我们将改进流程,以确保我们提供的所有新闻和信息都符合最高的新闻标准。”

First In,First Out

值得注意的是,仅仅在两个半月以前,Gannett宣布才刚刚宣布,计划在其发布新闻的系统中引入人工智能,并表示这有利于节省成本。

当时,Gannett的产品高级副总裁Renn Turiano称,生成式人工智能可以为记者提高效率并消除一些繁琐的任务,但他补充说,“一些其他新闻机构想要快速推出这项技术是一个错误,但我们不会犯这个错误。”

据悉,Gannett使用的是Cohere的AI模型,并使用1000篇此前发布的带有记者摘要的新闻,在两周内对其进行了训练。而为了进一步训练模型,USA Today团队的记者还审查并编辑了自动生成的新闻与摘要。此外,Gannett还在开发一种生成式人工智能工具,可以将长篇故事分解成不同的长度和格式,比如用项目符号或照片上的标题来创建幻灯片。

不过,当时的Gannett也同时承诺,将保持人类编辑参与这一流程的最终决定权,以防止人工智能在没有监督的情况自动发布文章。值得一提的是,早些时候,Gannett的数百名记者曾进行了一次罢工活动,其主要诉求就是避免裁员和不涨工资,以及人工智能对人类记者的取代。

类似地,科技出版物CNET在今年早些时候也放弃了自己的人工智能写作工具,因为有报道称这些文章中存在大量错误。

GPT-4“幻觉”最少,Cohere“自信地胡说八道”

近期,一些主要出版物已经屏蔽了OpenAI的网络爬虫,因为担心该公司正在使用他们的内容来训练ChatGPT。

无独有偶,今日早些时候,OpenAI更新事故报告称,ChatGPT的服务严重降级,许多未付费用户遭遇该问题,其已查明问题所在,正在努力修复。这种服务的降级,除了因为算力导致的问题之外,还包括了一直围绕在大模型产品中的“幻觉”问题。

“幻觉”(hallucinations)问题指的是聊天机器人完全捏造信息,并表现成滔滔不绝讲述事实的样子来回应用户的提示语问题。大约半月前,机器学习监控平台Arthur AI发布了最新研报,比较了OpenAI、Meta、Anthropic,以及Cohere等公司的大语言模型“产生幻觉”,即胡说八道的能力。

本次的最新测试选取了来自OpenAI 的GPT-3.5(包含1750亿个参数)和GPT-4(1.76万亿参数)、来自Anthropic的Claude-2(参数未知)、来自Meta的Llama-2(700亿参数),以及来自Cohere的Command(500亿参数),并从定量和定性研究上对这些顶级LLM模型提出具有挑战性的问题。

结果显示,整体而言,OpenAI的GPT-4在所有测试的模型中表现最好,产生的“幻觉”问题比之前版本GPT-3.5要少,例如在数学问题类别上的幻觉减少了33%到50%。

同时,Meta的Llama-2在受测五个模型中整体表现居中,Anthropic的Claude-2表现排名第二,仅次于GPT-4,而Cohere的LLM模型最能“胡说八道”,而“非常自信地给出错误答案”。

Arthur AI的联合创始人兼首席执行官Adam Wenchel指出,这是业内首份“全面了解人工智能模型幻觉发生率的报告”,并非仅仅提供单一数据来说明不同LLM的排名先后:“这种测试对用户和企业来说,最重要的收获是可以测试确切工作负载,了解LLM如何执行你想要完成的任务至关重要。此前许多基于LLM的衡量标准并不是实际生活中它们被使用的方式。”

在上述研报发表同日,Arthur公司还推出了开源的AI模型评估工具Arthur Bench,可用于评估和比较多种LLM的性能和准确性,企业可以添加定制标准来满足各自的商业需求,目标是帮助企业在采用人工智能时做出明智的决策。

想要代替人工,大模型还有很多路要走

大模型在处理某些任务时会出现明显的错误,引发人们对这类大模型产品的质疑和担忧。

如果大模型产品在使用过程中出现“幻觉”问题,则有可能会带来一系列的影响:

商业影响:幻觉问题可能导致深度学习模型的商业应用受到限制,因为客户和市场对模型的可靠性有严格的要求。

学术影响:幻觉问题可能引发学术界的争议和讨论,推动研究者们进一步深入探讨深度学习的理论限制和实践应用。

社会影响:如果深度学习模型在关键领域(如医疗、金融等)出现幻觉,可能导致严重的社会后果,甚至威胁人类安全。

为了解决这个问题,算法专家们需要进一步探索和研究深度学习的理论和实践,寻找更有效的优化方法和解决方案。同时,我们也需要加强监管和规范,确保深度学习模型在各个领域的应用都能达到足够的可靠性和安全性。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OH9tlzbFEqI3tk5VPAnnnYbg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券