识别AI造假，效果超越OpenAI，AI生成检测器来了！

make a bug

发布于 2023-07-15 14:22:52

3220

文章被收录于专栏：我和bug只能活一个我和bug只能活一个

AI "造假"越发精妙，以至于我们开始难以分辨出真实与虚构的界限。前几天的「10 分钟骗 430万」直接冲到热搜？足以看出人们对 AI 造假产生了深深的担忧。不过现在，针对 AI 生成语料的检测方法已经被研究出来。

随着大型语言模型的日益进步，我们越来越难以区分人类与 AI 生成的内容。尽管这些模型大大简化了我们的文书工作，但其令人难以分辨的造假能力也被一些不法分子所利用，造成了一系列的社会问题。

那么，如何检测和识别 AI 生成的语料？北大和华为的研究团队提出了一种可靠的文本检测器，该检测器基于 PU 学习的多尺度 AI 生成文本检测方法，具有显著提升短文本识别精度的效果，解决了目前检测器对于短文本识别精度低的痛点。

论文地址：https://arxiv.org/abs/2305.18149

代码地址 (MindSpore)：https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt

代码地址 (PyTorch)：https://github.com/YuchuanTian/AIGC_text_detector

我们生活在一个信息快速传播的时代，而大型语言模型生成的内容越来越逼真。在学术界，社交平台等领域，我们都迫切需要一款可靠的 AI 生成文本检测器。然而，不同的场合，我们对检测内容的需求也各不相同。

研究团队注意到，短语料的 AI 生成文本可能存在一些「不确定性」，因为有些 AI 生成的短句也经常被人类使用，因此很难判断短文本是人类生成的，还是 AI 生成的。

针对这个问题，研究团队将传统的二分类问题转化为部分 PU（Positive-Unlabeled）学习问题，其中人类的语言被标记为正类，机器的语言被标记为无标记类，从而改进了训练损失函数，提高了文本检测器的分类效果。

整个算法过程中，研究者们通过制定 PU loss 来估计负样本对应的二分类损失，并根据文本长度，提出了长度敏感的多尺度 PU（MPU）loss 损失函数。改进之后的语言模型检测器效果较为突出，超过了其它基线算法。

作者还对 chatGPT 生成文本进行了检测，经过传统微调得到的语言模型检测器在短句上表现较差；经过 MPU 方式在同等条件下训练得到的检测器在短句上表现良好，且同时能够在完整语料上取得可观的效果提升，F1-score 提升了 1%，超越了 OpenAI 和 DetectGPT 等 SOTA 算法。