我们是不是真的在走进 AI 的“视界”,迈入一个“奇点”时代,现在谁也谁不准。这相当于就是说,AI的发展不是突如其来的剧变,而是渐进而深远的转变。可能在未来某个阶段,我们再回过头来才发现:目前的时代是开启人工智能最关键的时间节点。
Sam Altman在文章中写到:“奇迹”正在变成“日常”
虽然我们目前还是没有看到强人工智能的出现,而且现阶段的AI大部分扮演的是对话的角色,但 像GPT‑4、o3 等大模型已在多个领域超越人类,并大幅提升我们的效率——这意味着“AI奇迹正在被常态化”
但从另一方面来看,自从OpenAI发布ChatGPT以来,大部分人的感觉都是大模型的进展越来越慢,已经没有当初的惊为天人的感觉。一直以来,很多人都认为GPT这种模式其实最后是通向不了AGI的。比如像之前李飞飞和Etchemendy(斯坦福哲学教授,曾任斯坦福大学教务长)在《时代(Time)》上刊载新文章《No, Today’s AI Isn’t Sentient. Here’s How We Know》,明确指出当前技术路线无法制造有感知能力的AI。
目前最主流的说法认为,大模型的scaling raw正在慢慢失效,也就是目前的大模型尽管有着大量的数据集进行训练,但是其能力却没有大规模的提升,体现出了Scaling raw在慢慢失效。
OpenAI就为此创建了一个“基础团队”,主要研究怎么合成高质量的数据,提供给大模型进行学习。而如果能够源源不断的提供给大模型一个高质量的数据集,那么确实有可能会进一步提升
要生成高质量的数据,目前常用的方法是通过一个在相关内容上进行过预训练的大语言模型生成合成数据。具体来说,生成过程通常是基于少量的真实数据,编写一组特定的 prompt,再经由生成模型生成具有针对性和高质量的合成数据。
但是这种生成数据的方法会有两个明显的问题。
一个是信息增益有限:合成数据的有效性在于其为模型提供了新的信息。如果合成数据与原始数据过于相似,信息增益有限,模型的泛化能力提升也会受限。
另一个是数据质量控制困难:合成数据的质量直接影响模型的性能。生成高质量的合成数据需要精确的建模和丰富的先验知识,确保合成数据在多样性和真实性上与真实数据相匹配。
1
下一步AGI的方向在哪里?
大模型这条路到底能不能通向AGI,目前谁也说不清楚。但是下一步其实还有很多可以发展的空间。
比如之前OpenAI推出的o1大模型,OpenAI就提出的新的Post-Training Scaling Laws原理。尽管在模型在预训练阶段pre-training的scaling laws真正慢慢的失效,但是在后训练阶段中的scaling laws目前还可以继续发力。
OpenAI在尝试提升后训练Post-Training和推理阶段中的算力,发现整体模型的准确率有明显的提升效果。
这里的OpenAI的后训练Post-Training Scaling law 与 预训练 Pre-training Scaling law 不同。它们分别在模型训练和推理过程的不同阶段。随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算), o1 的性能也在不断提升,并且目前Post-Training Scaling Laws还远没有到瓶颈。
所以scaling law并没有真正的失效,大模型还可以从更多发面去挖掘其潜在的可能性。
另一方面Lecun就曾提到过通向AGI的方法,就是需要构建一个“世界模型”。他觉得LLM其实就只是个自回归的文本生成模型,它们对世界的理解非常肤浅,只能捕捉到文本的统计规律,根本没法真正搞懂文本在现实世界里的意思。
因此他自己就提出了一个“世界模型”的概念,解决方案被称为JEPA(联合嵌入预测架构)。
JEPA用一系列编码器提取世界状态的抽象表示,再用不同层次的世界模型预测器预测世界的各种状态,还能在不同时间尺度上做预测。所有复杂的任务都能用“分层”的方法搞定。比如,我想从纽约去北京,先得去机场,然后坐飞北京的飞机,最后需要把整体的目标规划成:纽约到北京的距离。
接着“世界模型”需要把任务分解到毫秒级,通过毫秒级的控制找到预测成本最小的行动序列。
当然,以上两种方法究竟哪一个能够成功,我们只能静待时间的考验。我还是相信,在科技持续飞速发展的助推下,AGI必定能够到来~
领取专属 10元无门槛券
私享最新 技术干货