首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

人工智能公司已经消耗了整个互联网来训练模型,但数据已经耗尽

数据枯竭:AI面临的未知挑战

人工智能公司几乎已经用尽了整个开放互联网的数据,为了使每个大型语言模型(LLM)比前一个更强大,我们几乎耗尽了整个网络的数据宝库。如今,随着开放互联网的数据濒临枯竭,AI界面临了一个前所未有的挑战。为了打造出比前代更强大的大型语言模型(LLM),我们可能不得不转向使用AI自身生成的数据,这是一把双刃剑。《华尔街日报》的报告指出,这种做法不仅可能引发模型的幻觉,而且还可能导致“数字近亲繁殖”,最终令模型崩溃。

创新还是风险?新的数据训练方法

由前Meta和GoogleDeepMind的研究员Ari Morcos创立的Dataology,开始探索如何用更少的数据和资源来训练这些庞大的模型。

与此同时,OpenAI等大玩家也在尝试一些创新且具有争议的数据训练方法,例如考虑利用YouTube视频的公开转录来训练GPT-5模型。这种做法虽然创新,但也面临着版权和伦理的挑战。

向合成数据的转变,策略调整:追求可持续的技术发展

尽管我们正处在一个数据匮乏的时代,但OpenAI和Anthropic等公司正在积极开发更优质的合成数据,以此来克服挑战。他们的方法虽然还不完全透明,但意味着我们可能不远的将来会看到一些重大的技术突破。

关于人工智能公司可能面临的问题的担忧已经存在一段时间了。Epoch的研究员Pablo Villalobos等专家预测,如果当前趋势持续,人工智能可能很快就会耗尽其可用的训练数据。面对这种情况,一个可行的方案浮现,AI公司可以选择停止追求规模更大、更复杂的模型。这不仅能减少对稀土矿物和巨大能源消耗的依赖,还可能引领我们走向更加可持续和负责任的技术发展道路。

在这个充满挑战和机遇的时代,我们正站在一个关键的十字路口。我们的选择不仅会影响技术的未来,更会触及我们与这个世界共存的方式。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O8z0meUTKqoDT3ALd_NCdHKg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券