AI "造假"越发精妙,以至于我们开始难以分辨出真实与虚构的界限。前几天的「10 分钟骗 430万」直接冲到热搜?足以看出人们对 AI 造假产生了深深的担忧。不过现在,针对 AI 生成语料的检测方法已经被研究出来。
随着大型语言模型的日益进步,我们越来越难以区分人类与 AI 生成的内容。尽管这些模型大大简化了我们的文书工作,但其令人难以分辨的造假能力也被一些不法分子所利用,造成了一系列的社会问题。
那么,如何检测和识别 AI 生成的语料?北大和华为的研究团队提出了一种可靠的文本检测器,该检测器基于 PU 学习的多尺度 AI 生成文本检测方法,具有显著提升短文本识别精度的效果,解决了目前检测器对于短文本识别精度低的痛点。
论文地址:https://arxiv.org/abs/2305.18149
代码地址 (MindSpore):https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt
代码地址 (PyTorch):https://github.com/YuchuanTian/AIGC_text_detector
我们生活在一个信息快速传播的时代,而大型语言模型生成的内容越来越逼真。在学术界,社交平台等领域,我们都迫切需要一款可靠的 AI 生成文本检测器。然而,不同的场合,我们对检测内容的需求也各不相同。
研究团队注意到,短语料的 AI 生成文本可能存在一些「不确定性」,因为有些 AI 生成的短句也经常被人类使用,因此很难判断短文本是人类生成的,还是 AI 生成的。
针对这个问题,研究团队将传统的二分类问题转化为部分 PU(Positive-Unlabeled)学习问题,其中人类的语言被标记为正类,机器的语言被标记为无标记类,从而改进了训练损失函数,提高了文本检测器的分类效果。
整个算法过程中,研究者们通过制定 PU loss 来估计负样本对应的二分类损失,并根据文本长度,提出了长度敏感的多尺度 PU(MPU)loss 损失函数。改进之后的语言模型检测器效果较为突出,超过了其它基线算法。
作者还对 chatGPT 生成文本进行了检测,经过传统微调得到的语言模型检测器在短句上表现较差;经过 MPU 方式在同等条件下训练得到的检测器在短句上表现良好,且同时能够在完整语料上取得可观的效果提升,F1-score 提升了 1%,超越了 OpenAI 和 DetectGPT 等 SOTA 算法。
如上表所示,作者在消融实验中观察了每个部分带来的效果增益。MPU loss 加强了长、短语料的分类效果。
作者还对比了传统 PU 和 Multiscale PU(MPU)。由上表可见 MPU 效果更胜一筹,能更好地适配 AI 多尺度文本检测的任务。
总结:
在这个日益依赖 AI 的时代,我们需要保持警惕,发展出针对 AI 造假的防御措施。借助北大和华为的这个发现,我们现在有了更好的理解和应对机器造假的能力,从而使我们能够在接受 AI 带来的便利的同时,保护自己不受其潜在风险的影响。
未来,我们期待有更多的研究来继续推动这个领域的发展,同时也期待我们的社会能够更好地应对这些新技术带来的挑战。