近日,科技巨头OpenAI发布了全新的AI视频生成模型Sora,该模型一经推出即引发了业界的广泛关注。然而,Meta首席人工智能科学家Yann LeCun却对Sora的价值及其实现目标的方式表示了质疑。
LeCun在社交媒体平台X上公开发表了自己的看法,他认为OpenAI声称Sora将最终实现“构建通用物理世界模拟器”的目标,这一方向在当前的方法下是完全偏离了轨道的。他特别指出,通过生成像素来模拟世界的行为是一种既浪费资源又注定失败的方法。
这场争论再次引发了机器学习领域中生成模型和判别模型的长期争议。LeCun坚持认为,生成模型通过“解释性潜在变量”生成像素的方式在处理三维空间中复杂预测带来的不确定性时存在效率低下的问题。他形象地比喻,这种方法就像是在计算足球的轨迹时,却要去分析每一个足球材料的作用,而不是仅仅关注质量和速度等关键因素。
与此同时,LeCun也承认生成式模型在大型语言模型(如ChatGPT)上取得了一定成功,但他强调这是因为文本是离散的,且符号数量有限。然而,当模拟整个世界时,所需要处理的复杂度远远超过了几个字符的范围。
作为对OpenAI方法的回应,LeCun公布了他在Meta开发的名为“视频联合嵌入预测架构”(V-JEPA)的模型。据Meta官方博客介绍,与试图填充所有缺失像素的生成式方法不同,V-JEPA能够丢弃不可预测的信息,从而在训练和样本效率上实现大幅提升。
这场由两位人工智能领域重量级人物引发的辩论无疑为行业带来了新的思考角度和研究方向。
领取专属 10元无门槛券
私享最新 技术干货