首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

让AI变"聪明"的关键一步

神经网络技术的发展,离不开对人脑的持续研究和模仿。

大脑对事物的记忆和表达,并不仅仅是储存在单一地点上,而是分布在巨大的神经元网络里,这是神经网络的一个核心思想。

你可以这么理解,一个概念可以用多个神经元来表达,一个神经元也可以用来表达多个概念,他们是一个多对多的关系。

举个例子:白色的大型A380客机,这里面一个神经元表达颜色,一个神经元表达大小、一个神经元表达型号,还有一个神经元用来表达交通工具的类型。

这种分布式表达的方式,背后所对应的也是分布式存储的方式,它比传统的局部存储更高效,表达起来纬度更丰富,能够支持存储的数量也比传统方式多很多很多。

就像我在《谁举起了停滞70年的AI行业?》里提及到的,分布式表达和存储的优点,还在于它的反脆弱性,也就是它不会因为局部出现故障,而导致整个信息表达受到根本性破坏。

这种方式有缺点吗?有,那就是计算量巨大。

尤其是在机器学习过程中,模型的调整主要是在进行算法纠错,而算法纠错的目的是为了减少模型预测值和实际结果之间的差异,即减少误差。

算法纠错除了提高准确性之外,还会避免模型过度拟合,所谓过度拟合,就是在训练数据上表现得很好,但是在未见过的新数据上表现不佳,这是我们不希望见到的,所以算法纠错也是为了防范过度拟合,让算法更好泛化在其他新数据上。

早期的算法纠错,涉及到对整个训练数据集的遍历,计算损失函数然后再重新更新所有参数,所以计算量巨大。

损失函数就是一把度量尺,这个函数的值越小,就代表越接近实际值,所以"查找最小值"就是算法纠错里面很重要的一件事。

"梯度下降"算法在里面运行的原理,就像是一个人在徒步,想知道哪里才是这座山的最低点,但他能够感觉到脚下地面的倾斜方向,也就是我们常说的梯度,所以他决定每次都朝着梯度不断下降的方向走,一直走到最低点。

上面的例子中,这个人就是算法本身,这种方式就是算法的逻辑本身。这种方式耗费的计算量和神经元数量的平方成正比,当神经元不断增多,这么庞大的计算量用当时的硬件是没法满足的。

理论上,这种不断计算梯度,不断调整有问题的梯度参数的过程,本质上就是在自动提取和学习数据的特征,尤其适合图形识别、语音识别、自然语言这种特征识别类的业务。

1989年,计算机运行速度比二十年前提升了几个数量级,此时在贝尔实验室里,Yann Lecun在此基础上,进一步运用"梯度下降"算法来开发应用,识别了美国邮政系统提供的近万个手写的数字样本,错误率只有5%。

后面再在此基础上,Yann Lecun开发出基于"卷积神经网络"技术的商业软件,用于读取银行支票上的手写数字,在当时这个识别系统占据了美国接近20%的市场。

此时,为了能让这项技术能应用在更多的场景,包括在Yann Lecun在内每个搞神经网络开发的人,都在呼唤着更强大的计算能力。

这一刻,数量代表了质量。

模型变聪明的方式在于持续高效地不断纠错,后来我们都知道,当算力能够跟上的时候,模型就开始大杀四方。这也充分说明一个道理,当一个人的纠错(反馈)成本持续下降时,接触得越多,改得就越多,当然懂得也越多,能应用在实际生活当中的也就越多。

衡量一个人的财富,或许从这个角度来看更合理:

每天不断问自己,今天又有哪些以前认为是对的思考方式被纠正了?我今天又连接了多少个有用的信息?

大规模建立信息的有效连接,才是破除局部最优解,走向全局最优的正确方式。至于这个方式的商业化效果如何,OpenAI目前的市值就能说明一切。

你在这里能得到什么?

我始终认为:最有价值的时刻,在于你是否真正捕获了更多客观的一手信息,并修补了以前自己错误的观点,得到一些启发,这是你和大多数人真正拉开距离的时刻。

你能在这里能得到一些启发,偶尔一两个就够了,人的差距在于思维模式的差异。

文章表达个人观点仅供参考,不构成对所述资产投资建议,投资有风险,入市须谨慎.

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O-3rG2DZulh1J15fFS15E1-g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券