好的数据源是提升大模型能力的关键。但据《纽约时报》调查,有公司用各种方法大规模搜集高质量数据,一些手段涉险侵犯版权或用户隐私。而这么做的公司就包括 OpenAI、Google、Meta。
据报道,2021 年底,OpenAI 为了训练 GPT-4,把超过 100 万小时的 YouTube 视频转录成文本。背后用到的工具就是由其总裁格雷格·布罗克曼 (Greg Brockman) 联合同事开发的语音转写模型 Whisper。
报道认为这种做法侵犯了 YouTube 创作者版权和平台数据保护条款。文章称,后来一些 Google 员工知道 OpenAI 的做法但没有阻止,因为他们也在做类似的事情。
GPT-4 发布后,Google 想要迅速追赶,决定修改 Google Docs、Google Map 用户协议,以允许工程师们利用应用中的数据训练大模型,比如公开分享的 Google Doc 文档、Google Map 上用户对餐厅的评论等。
Google 会在周末更新条款,以尽可能降低用户大规模抗议的可能性。
大模型竞赛中落后的 Meta,讨论过各种获取数据的方法。比如收购出版社或者找作家谈判,获得书籍版权。后来他们发现谈版权的流程太慢,直接拿着大量受版权保护的内容训练模型。
过去一年,小说家、作家协会、媒体、程序员等各种主体起诉大模型公司数十次。目前还没有哪起诉讼有明确结果。
竞赛还在继续,大模型公司面临的数据难题更大。研究机构 Epoch 预测,能够用于训练大模型的高质量文本数据到 2026 年就会耗尽。
许多公司尝试用大模型生成数据训练模型。当年 DeepMind 训练围棋 AI AlphaGo 就用了类似方法,让 AI 自我对弈,提升自身实力。
这种方法在大模型领域是否有效,目前还没有形成共识。不少研究者认为,用大模型生成的数据训练大模型,可能会让大模型的缺点变得更突出,比如更容易产生 “幻觉”。但现在大模型公司的选择已经没有太多。(贺乾明)
领取专属 10元无门槛券
私享最新 技术干货