前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「ChatGPT 对比与检测」研究项目被 LLM@IJCAI'23 收录!研究回顾

「ChatGPT 对比与检测」研究项目被 LLM@IJCAI'23 收录!研究回顾

作者头像
beyondGuo
发布2023-09-01 11:27:37
4840
发布2023-09-01 11:27:37
举报
文章被收录于专栏:SimpleAISimpleAI

时间过得真快,离当初开始「ChatGPT 对比与检测」这个科研项目已经过去了半年之久,而这半年,正是大模型(LLM)百花齐放、群模乱舞的半年,我当初也想不到,半年时间之内,国内外能突然迸发出这么多表现惊艳的大模型,整个NLP社区的研究范式、应用方式都发生了巨大变化。 (前情提要:首个人类-ChatGPT对比语料集开源!人工测评,语言学分析,检测器模型都在这里

由于我们这个项目开展的很早(ChatGPT推出仅10天就开始了),因此在我们开源了数据集、模型之后,也受到了很多的关注。最近,我们这个项目被国际人工智能顶会 IJCAI 的大语言模型论坛(LLM@IJCAI'23)收录,并将于今年夏天在中国澳门做分享报告,欢迎朋友们一起来交流讨论。

这里汇报一下截至目前的项目成果:

  • 项目论文《How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection》自1月份发布以来,已经收获国际同行 80 次引用;
  • 我们开源的检测器模型(ChatGPT detectors)累计被下载数十万次,在线demo访问量超十万次;
  • 我们开源的“人类-ChatGPT对比数据集”(HC3 dataset)累计被下载数十万次,且被用于多个知名大模型的开发,包括 MosaicML 的mpt-7b-chat模型和 UC Berkeley 的 Koala-13B模型,二者均位于 MLsys 5月份LLM排行榜上前十名。

研究内容回顾

我们这项研究涉及到 4 块内容:

  1. HC3数据集。构造了第一个人类专家和ChatGPT对比的数据集,即HC3(Human-ChatGPT Comparison Corpus)数据集,包含十几万个问答对,覆盖中英文的开放域、计算机、金融、医学、法律、心理等多领域,是研究计算语言学和辅助开发ChatBot的珍贵语料;(即使过去半年了,似乎我们的HC3数据集仍然是唯一一个包含LLM跟人类对比回答的开源数据集)
  2. 图灵测试、有用性测试。我们开展了一系列有趣的人工测评,包括三种图灵测试和一个有用性测试(helpfulness),这些人工测评得出了一些有意思的结论;
  3. 统计语言学分析。我们在HC3数据集基础上,做了很多语言学方面的分析,包括词汇、词性、依存关系、情感、困惑度等,发现了人类语言跟ChatGPT语言的显著差异;
  4. ChatGPT检测器。基于HC3,我们利用机器学习、深度学习方法,开发了多种中英文ChatGPT内容检测器,识别成功率高达95%,验证了即使强如ChatGPT,我们依然有办法进行有效检测。

下面,我们简要回顾一下每一块的具体内容:

HC3:人类专家和ChatGPT对比数据集

ChatGPT对语言的掌握能力十分炸裂,文笔吊打一众理科生,同时由于ChatGPT基本掌握了世界知识,对各种常规问题可谓是信手拈来。对此,我们十分好奇,对于同一个问题,人类专家和ChatGPT分别会怎么作答

怀着这样的动机,我们广泛了收集了各种领域中的人类专家回答:

  • 专业问答平台的问答数据,比如医学、法律这样的问答平台,答案就是平台认证的专家回答的;
  • 百科类网站,词条的解释基本都是人类专家经过反复修订的,对此我们自行构造类似于“请解释一下什么是<某词条>”这样的问题,并爬去百科的解释作为回答;
  • UGC问答平台中的高赞回答,这里虽然不是传统意义上的专家,但是那些点赞量很高的回答,往往也是比较专业、详细的、收到网友认可的回答,所以我们也把这些当做人类专家回答。(虽然肯定存在一些噪音,比如抖机灵、讲段子也容易获得高赞)

然后,我们再爬取对应的ChatGPT对于这些问题的回答(当初我们开始收集数据的时候,ChatGPT还没有API,收集这么几万条数据可费了老劲了哈哈哈)。最后经过一些数据清洗、过滤,就得到了我们的HC3数据集:

下面是我们托管在 🤗Huggingface 平台上的数据集,可在线浏览(https://huggingface.co/Hello-SimpleAI):

前面提到过,HC3数据集被用于 MosaicML 的mpt-7b-chat模型和 UC Berkeley 的 Koala-13B模型的训练。然而,目前这些训练,都是没有真正利用到这个数据集最核心的“对比”这一点,而是直接把所有的问答对灌进去。我个人觉得一个有意思的研究点是分别使用HC3中的Human answers、ChatGPT answers训练两个不同的模型,然后进行对比,看看两个模型的差异,应该会有有趣的结论。

图灵测试、有用性测试

我们邀请了各行各业的志愿者(主要身边的亲朋好友),做了很多有趣的人工测评。主要包括:

  • 专家-对比文本 图灵测试:熟悉ChatGPT的人,来判断一对回答中,哪个是ChatGPT产生的
  • 专家-单条文本 图灵测试:熟悉ChatGPT的人,来判断单个回答,是否是ChatGPT产生的
  • 业余-单条文本 图灵测试:不熟悉ChatGPT的人,来判断单个回答,是否是ChatGPT产生的
  • 有用性测试:判断一对回答中,哪个是更有帮助的

结果如下:

主要结论就是:专家不好骗,图灵测试基本通不过,但是对于业余选手则可以通过;当有对比时,更容易判断哪个是ChatGPT产生的;ChatGPT在有用性方面,甚至可以媲美或超过人类专家。

当然,具体到不同领域上,结果也有差别,这里不再赘述。

语言学分析

词汇特征

我们构造了一个指标为“词汇密度”(density),它统计的是在一批预料中,不同的词汇占总词汇的比例。结果显示,在我们收集的所有领域中,ChatGPT的词汇密度都显著低于人类。同时,看平均回答长度的话,人类的回答也大多都短于ChatGPT。这就很有意思了,说明人类说话信息含量更大,语言更浓缩。

词性、依存关系

这里图比较多,我就只贴一个词性方面的结果简单说一下:

ChatGPT更喜欢使用名词、动词、代词、连词等,而人类则明显使用更多的副词、标点等。这些特点就是典型的官方/学术跟日常/口语的差别。

在依存关系方面,ChatGPT使用的句子的关系也更加复杂,关系跨度更长。

情感分析

不出意外,中性肯定是自然文本中占比最大的。但是相比之下,ChatGPT的中性占比又显著更高。另外有意思的是,人类的负面情绪显著比ChatGPT高,这也是我们意想不到的。不过想一想也合理,人类太喜欢使用“调侃”、“嘲讽”这样的表达了,尤其是当提问者提的问题过于简单时(这个现象在知乎十分明显)。

困惑度(perplexity)

困惑度(perplexity)是计算语言学中常用的评价文本生成质量的一个指标,一般采用一些预训练语言模型来对一段文本进行概率的计算。一般来说,在自然语料中越常见的表达,语言模型的概率就越高,而对应的困惑度也越低。

从结果上看,人类语言的困惑度显著比ChatGPT高,而且是一个长尾分布,说明语言的多样性极高。相比之下,ChatGPT的语言就显得很单一,基本上都是在说一些“很常见的话”。这也是可以理解的,因为说“常见的话”最符合它在训练时的损失函数。

ChatGPT检测器

最后的部分,我们基于HC3数据集训练了几种不同类型的检测器,用来判断一短文本是否是AI产生的(主要针对ChatGPT)。具体我们采用了RoBERTa(深度学习)和GLTR(机器学习)两种方案,主要结果如下:

可见,深度学习方法还是要好很多。更多的实验细节、消融实验、OOD实验等这里也不赘述,感兴趣的读者可以阅读我们第一版的论文(https://arxiv.org/pdf/2301.07597.pdf),或等待新版的论文(包含更多实验)挂出。

我们把相关检测器模型,都开源到了 🤗Huggingface 平台(https://huggingface.co/Hello-SimpleAI):

大家可以下载到本地进行部署。如果想试用的话,可以直接访问我们的在线 demo(https://huggingface.co/spaces/Hello-SimpleAI/chatgpt-detector-single):

结语

最后,介绍一下我们项目组成员:

  • 郭必扬
^1

上海财经大学-信管学院-AI Lab 博士生,主攻NLP和以数据为中心的AI;(项目负责人)

  • 张鑫
^2

哈尔滨工业大学(深圳)计算机科学与技术专业 博士生,研究关注于NLP和多模态;

  • 王子源
^1

上海财经大学-信管学院-AI Lab 博士生,研究方向为NLP和设计科学;

  • 江敏祺
^1

上海财经大学-信管学院-AI Lab 博士生,主攻异常检测、NLP以及时序预测问题;

  • 聂锦燃
^3

北京语言大学-BLCU-ICALL实验室 博士生,主要研究可控文本生成与自然语言理解;

  • 丁宇轩
^4

西安电子科技大学-电子工程学院 博士生,研究方向为多模态模型与应用;

  • 岳建伟
^5

加拿大皇后大学 计算机系 博士生,主要研究医学领域的NLP;

  • 吴宇鹏
^6

万得信息技术有限公司 算法工程师,研究可信 NLP 和人机协同.

(前5位为项目论文的共同第一作者,但全部8位成员都为整个项目的推进起到了无可替代的作用)

难以忘记2022和2023交界的那个冬天,我们来自天南地北、跨越三个时区、六个大学/公司的志同道合的8个伙伴,怀着满腔热情,一起收集数据、写代码、做分析、写论文,只为了一探当今最强AI的谜底。能有这样一段合作经历,也是我博士生涯的一大幸事。


自项目推出以来,我们也收到了很多专家的宝贵建议,除了受到我们项目组成员本身所在实验室的老师同学们的帮助外,还收到包括武汉大学、北京语言大学、上海交通大学的老师、同学们的专业建议,指出我们的工作在语言学分析、人工测评等方面的不足,在这里表示感谢。由于我们项目组成员本身也都有自己的学业、工作,很多建议我们一直也没有时间和精力去做改进和探讨。

随着时间的推移,当获取ChatGPT语料本身已经不是问题,当各类大模型开始百花齐放,当大家对LLM的体验逐渐深刻,我们这项研究的历史使命也基本完成。这个项目能在ChatGPT诞生的早期,就为NLP社区提供了开源数据集、模型以及相关统计分析,并确确实实帮助到了一些后续研究、大模型开发,我们所有成员对此感到十分荣幸!我们期待一个更精彩、多元、开放的AI新时代~

欢迎大家关注我们的项目:

  • GitHub:https://github.com/Hello-SimpleAI/chatgpt-comparison-detection
  • Paper (1st version):https://arxiv.org/abs/2301.07597
  • Huggingface:https://huggingface.co/Hello-SimpleAI
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SimpleAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 研究内容回顾
    • HC3:人类专家和ChatGPT对比数据集
      • 图灵测试、有用性测试
        • 语言学分析
          • ChatGPT检测器
          • 结语
          相关产品与服务
          腾讯云服务器利旧
          云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档