首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Epoch AI:2028年互联网上所有高质量文本数据将被使用完毕

多知8月2日消息,据研究公司Epoch AI预测,人类生成的公开文本数据的总有效存量约为300万亿tokens。至2028年,互联网上的所有高质量文本数据或将被悉数使用完毕,而机器学习所依赖的高质量语言数据集,其枯竭的时间点甚至可能提前至2026年。

为了在 2028 年之后保持当前的进展速度,开发或改进替代数据源(如合成数据)似乎至关重要。尽管挑战仍然存在,但这些挑战可以使机器学习继续扩展到公共文本之外。不过,研究人员指出,用生成的数据集训练未来几代机器学习模型可能会导致“模型崩溃”。

不过,也有观点认为,在语言模型的细分领域内,仍有一片未被充分探索的数据蓝海,蕴藏着丰富的差异化信息,等待着被挖掘利用。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OIZO79wuOSxToni9u7GHQEsQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券