内容质量堪忧！研究显示，近5%的维基百科内容为AI生成的

文章来源：企鹅号 - 爱尚学院

最近，普林斯顿大学的研究团队发布了一项有趣的研究报告，指出在2024年8月，维基百科上约有4.36% 的新文章包含了显著的 AI 生成内容。

这个研究由 Creston Brooks、Samuel Eggert 和 Denis Peskoff 三位学者共同完成，他们使用了名为 GPTZero 和 Binoculars 的工具来检测这些 AI 生成的内容。

研究表明，与 GPT-3.5发布前的数据相比，2024年的维基百科文章中 AI 生成的内容明显增加。在检测的2909篇英文维基百科文章中，GPTZero 标记了156篇，Binoculars 则标记了96篇，而这两种工具之间有45篇文章是重叠的。

被标记的文章通常质量较低，引用也较少，而且在维基百科的知识网络中融入得不够好。一些文章更是显得自我推销，涉及个人或商业推广，很多时候只附上了肤浅的引用，比如个人的 YouTube 视频。

在政治内容方面，有八篇文章明显推动了特定的观点，涉及一些有争议的话题，例如有关阿尔巴尼亚历史的编辑战争。此外，部分用户还利用大型语言模型（LLMs）来撰写一些小众主题的内容，包括真菌、美食和体育等，甚至有逐章书籍摘要的内容。

研究还将维基百科的 AI 生成内容与 Reddit 和联合国新闻稿进行比较，发现 Reddit 上的 AI 生成内容远低于维基百科，仅占不到1%。这表明，AI 生成内容在 Reddit 上要么很少，要么受到审查，或者难以检测。而联合国的 AI 生成新闻稿则显著增加，从2022年前的不到1% 飙升至2024年的20%。

报告最后强调，随着生成型 LLMs 的崛起，AI 检测工具也在不断发展。但在不同文本长度、领域和人机整合等不同上下文中评估这些检测器仍然面临挑战。

为了应对 AI 生成内容的挑战，个人、教育机构、企业和政府需要积极寻找可靠的方法来验证人类创作的内容。各国的监管机构也应加强对 AI 生成内容的管理。比如，中国已经开始采取措施，提高互联网上 AI 生成信息的透明度，发布了相关的草案规定。而印度也在今年对 AI 相关内容的标记发布了建议，虽然这一提议曾引发广泛的争议和批评。

发表于: 2024-10-172024-10-17 09:15:06
原文链接：https://page.om.qq.com/page/OoWfYfx12eKEwlO7fJzme5Qw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

内容质量堪忧！研究显示，近5%的维基百科内容为AI生成的

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐