前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Science | 关于生成式人工智能对生产力影响的证据

Science | 关于生成式人工智能对生产力影响的证据

作者头像
DrugAI
发布2023-09-19 14:49:48
2670
发布2023-09-19 14:49:48
举报
文章被收录于专栏:DrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自Shakked Noy的一篇评估生成模型的论文。作者在中级专业写作任务的背景下,研究了生成型人工智能技术——辅助聊天机器人ChatGPT对生产力的影响。在一项预先注册的在线实验中,作者给453名接受过大学教育的专业人士分配了特定职业的激励性写作任务,并随机将其中一半人受影响于ChatGPT。结果显示,ChatGPT极大地提高了生产力:平均所需时间减少了40%,输出质量提高了18%。工人之间的不平等程度降低了,对于AI的关注和兴奋感暂时增加。在实验期间接触到ChatGPT的工人在实验结束后2周内使用它的可能性增加了2倍,在实验结束后2个月内增加了1.6倍。

最近生成型人工智能(AI)的进展可能对生产和劳动市场产生广泛影响。ChatGPT或DALL-E等生成型AI系统可以根据大量训练数据生成新的文本或视觉输出,与大多数历史上的自动化技术不同。以往的自动化主要影响那些由明确步骤序列组成、可以轻松编码和编程到机器或计算机中的“例行”任务,例如流水线制造任务或簿记任务。相比之下,创造性、难以编码的任务,如写作和图像生成,一直避免受到自动化的影响。学者们指出,这种情况可能会随着深度学习的出现而改变,深度学习现在支撑着生成型AI系统的发展。

强大的生成型AI技术的出现在新的背景下重新引发了一系列经典问题。自动化技术的定义是代替人类执行特定任务。但更广泛地说,这些技术可能要么完全取代人类从事某些职业,要么通过提高人类工作者的生产力来增强其存在。如果像工业机器人这样的自动化技术主要是取代人类工作者,它们可能会增加失业率。此外,它们对总体生产力的影响可能很小,甚至不存在,因为它们主要是将原本由被取代的工人所赚取的收入重新分配给提供机器人替代品的资本所有者。如果像计算机这样的自动化技术增强现有工作者,它们可以通过提高工资、提高生产力和降低价格同时使工作者、资本所有者和消费者受益。

像ChatGPT这样强大的生成型写作工具可以替代或增强人类劳动。ChatGPT可以通过让公司直接自动化撰写拨款申请和新闻稿等工作,从而完全替代某些类型的作家,例如拨款作家或营销人员,而只需最少的人工监督。或者,ChatGPT也可以通过自动化相对常规、耗时的写作任务的子组成部分(例如将想法翻译成初稿),大大提高拨款作家和营销人员的生产力。在这种情况下,这些服务的价格会降低,需求可能会扩大,从而提高企业的就业和生产力,为消费者提供更便宜的产品,并可能提高工人的工资。此外,工人之间的不平等可能会减少,如果ChatGPT能更多地支持低能力的工人,或者可能会增加,如果高能力的工人具备利用新技术的技能。

这些结果取决于一系列的研究问题(RQs)。RQ1:使用生成型AI系统对工人在现有任务中的生产力有何影响?工人是否选择使用这些系统?在使用这些系统的情况下,工人如何与它们互动,它们如何影响生产力?RQ2:这些系统是否对低能力和高能力的工人产生不同影响?RQ3:工人对这些技术有何主观反应?

实验方法

这篇文章为回答这些问题迈出了第一步。作者在预注册的在线实验中招募了453名有经验的大学毕业专业人士,他们在Prolific调查平台上完成了两个与职业相关的有激励的写作任务(21)。实验时间为2023年1月27日至2月21日,使用的是GPT-3.5。我们选取的职业包括市场营销人员、拨款撰稿人、顾问、数据分析师、人力资源专业人员和经理。任务包括撰写新闻稿、简短报告、分析计划和重要电子邮件,每个任务需要20到30分钟完成,旨在模拟这些职业中的实际工作任务。参与者面临高额奖励,以鼓励他们产出高质量的工作成果。他们将获得10美元的基本报酬,以及最多14美元的奖金作为产出质量奖励,平均每小时报酬为17美元,远远超过Prolific标准的12美元/小时。输出质量由同一职业中的经验丰富的专业人士进行评估,评估者被要求将输出视为在工作环境中遇到的情况,并获得激励以在1到7的评分标尺上仔细评分。每篇输出都由三名评估者评估,评估者之间的平均内部一致性相关系数为0.44。

表 1

随机将50%的参与者分配到处理组,将另外50%的参与者分配到对照组。处理组被要求在第一次任务和第二次任务之间注册ChatGPT,并获得如何使用它的指导。他们被告知如果发现有用,可以在第二次任务中使用它。对照组则被要求注册LaTeX编辑器Overleaf,以保持两组之间的注册时间和麻烦成本相同。对照组并未被告知他们可以在第二次任务中使用Overleaf,而<5%的参与者随后报告使用了它。样本的描述统计数据以及平衡性和选择性脱落测试可在表1中找到。对照组的脱落率为6%,处理组的脱落率为11%。平衡性测试表明,在13个干预前特征上,处理组和对照组只在两个特征上存在小但显著的差异:就业状况和人力资源专业。

实验结果

图 1

作者首先展示了两个生产力指标的结果:所花时间和评估等级(图1)。实验干预显著改变了这两个结果。在处理组中,后处理任务所花时间相对于对照组减少了11分钟(0.75个标准差),对照组平均花费27分钟(P < 0.001)。处理组的平均评估等级提高了0.45个标准差(P < 0.001),对于整体等级、写作质量、内容质量和独创性等方面也有类似的增加。这些效果不仅限于时间或等级分布的特定范围。如图1所示,整个时间分布向左移动(工作速度更快),整个等级分布向右移动(质量更高)。在个体工作者层面,如图2所示,得分较低的处理组工作者的等级增加了1到2个点,时间减少了10分钟,而得分较高的工作者保持了原来的等级,同时时间也减少了约10分钟。这些结果在作者的两种主要奖励方案中几乎完全相同,这两种方案涵盖了80%的受访者:一种是“线性”方案,参与者根据每次提交获得的分数(以1到7分的等级评定)每分获得1美元报酬,另一种是“凸”方案,参与者额外获得3美元的报酬,如果获得6或7分的等级。图1所展示的结果基于这两种奖励方案。处理组参与者在面临高质量产出的强烈激励(在凸方案下)时减少了相似数量的时间,这表明ChatGPT的节省时间效果不仅适用于线性支付制度,而且在不同的激励结构下具有强大的适用性。

图 2

在对照组中,存在持续的生产力不平等现象:在第一个任务中表现出色的参与者通常也在第二个任务中表现出色。正如图2A所示,对照组参与者在第一个任务上的评分与他们在第二个任务上的评分之间存在0.41的相关性(P < 0.001),保持评估者不变。在处理组中,处理效果几乎消除了初始的不平等现象:第一个任务和第二个任务之间的相关性仅为0.14(P < 0.001,斜率差异显著)。不平等的减少是由于在第一个任务中得分较低的参与者从ChatGPT的使用中受益更多。如图2A所示,在x轴的左端,处理组和对照组之间的差距更大。

图 3

上述记录的生产力结果背后存在着怎样的人机交互?参与者是否将任务提示粘贴到ChatGPT中并立即提交其输出,以最小化时间成本并提高评分,因为ChatGPT的写作能力超过了他们自己的能力?或者他们是否将ChatGPT视为一个有帮助但不完美的工具,例如使用它创建草稿,然后花时间进行编辑和改进,或者用它进行头脑风暴或编辑?作者的证据支持第一种可能性。几乎所有人都提交了轻微编辑或未编辑的ChatGPT输出,可以观察到的编辑时间很短,没有导致受试者的评分提高。在处理组中,33%的参与者报告称提交了未经编辑的ChatGPT初始输出,53%的参与者在提交之前进行了编辑。然而,那些报告进行编辑的参与者在首次观察到他们粘贴大量文本(可能来自ChatGPT)后的平均活动时间仅为3.3分钟,大多数人活动时间为0到2分钟。定性检查表明,大部分编辑是表面性的,例如更改占位符或重新排列句子。评估者的评分也表明这种编辑没有效果。参与者在粘贴ChatGPT文本后活动的时间长度与他们最终获得的评分之间没有相关性,使用ChatGPT的处理组受试者的平均评分也没有高于作者提供给评估者评分的原始ChatGPT输出。

在实验中,许多处理组参与者在参与实验之前从未听说过ChatGPT或从未使用过它。作者使用了一系列问题来评估他们对这项技术的主观反应。如图3所示,处理组参与者在获得ChatGPT使用权限时,对任务的喜爱度提高了0.47个标准差(P < 0.001)。处理组参与者对AI未来对他们职业的影响的担忧程度提高(P < 0.01),对其激动程度也提高(P < 0.001),他们的整体乐观程度增加了0.2个标准差(P < 0.05)。这些效应在两周和两个月的跟踪调查中消失,表明它们最好被解释为反映受访者对该技术的首次体验的短期现象。

ChatGPT对参与者的价值一个有力的指标是他们在实验结束后是否继续在实际工作中使用它。为了跟踪这一点,我们在参与者完成初始调查后的两周和两个月进行了再次调查,分别的回应率为92%和83%,回应率没有处理组和对照组之间的不平衡。在两周的跟踪调查中,34%的处理组参与者报告称在过去一周内在工作中使用了ChatGPT,而对照组参与者中这一比例为18%(P < 0.001)。这种大幅度的差距在两个月的跟踪调查中仍然存在,42%的处理组和27%的对照组受访者报告称在过去一周内在工作中使用了ChatGPT(P < 0.01)。这一差距的持续存在表明ChatGPT在真实的专业活动中的传播仍处于非常早期阶段,使用受到对该技术的知识或经验的限制。在两周的跟踪调查中,ChatGPT用户给这项技术的平均有用性评分为3.66(满分5.00),略低于主要实验中的评分,这可能是因为真实世界任务更加复杂和耗时。参与者报告称他们在各种任务中使用ChatGPT,例如为员工生成推荐信、回复客户服务请求、头脑风暴、起草邮件和编辑等。非使用者分为三个大致相等的群体,他们报告说:(i) ChatGPT在他们的工作中没有用处,(ii) 他们不知道它或没有帐户,或者(iii) 在他们的工作场所不允许使用或在白天通常不可用。那些声称ChatGPT在他们的工作中没有用处的三分之一的非使用者大多说这是因为聊天机器人缺乏上下文特定的知识,而这些知识在他们的写作中是很重要的一部分。例如,报告说他们的写作“非常专门针对客户,并涉及实时信息”,或者“与公司的产品独特而具体相关”。

参考资料

Shakked Noy Whitney Zhang ,Experimental evidence on the productivity effects of generative artificial intelligence.Science381,187-192(2023).DOI:10.1126/science.adh2586

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-12 17:13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云小微
腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档