让AI变"聪明"的关键一步

文章来源：企鹅号 - 雅格布

神经网络技术的发展，离不开对人脑的持续研究和模仿。

大脑对事物的记忆和表达，并不仅仅是储存在单一地点上，而是分布在巨大的神经元网络里，这是神经网络的一个核心思想。

你可以这么理解，一个概念可以用多个神经元来表达，一个神经元也可以用来表达多个概念，他们是一个多对多的关系。

举个例子：白色的大型A380客机，这里面一个神经元表达颜色，一个神经元表达大小、一个神经元表达型号，还有一个神经元用来表达交通工具的类型。

这种分布式表达的方式，背后所对应的也是分布式存储的方式，它比传统的局部存储更高效，表达起来纬度更丰富，能够支持存储的数量也比传统方式多很多很多。

就像我在《谁举起了停滞70年的AI行业？》里提及到的，分布式表达和存储的优点，还在于它的反脆弱性，也就是它不会因为局部出现故障，而导致整个信息表达受到根本性破坏。

这种方式有缺点吗？有，那就是计算量巨大。

尤其是在机器学习过程中，模型的调整主要是在进行算法纠错，而算法纠错的目的是为了减少模型预测值和实际结果之间的差异，即减少误差。

算法纠错除了提高准确性之外，还会避免模型过度拟合，所谓过度拟合，就是在训练数据上表现得很好，但是在未见过的新数据上表现不佳，这是我们不希望见到的，所以算法纠错也是为了防范过度拟合，让算法更好泛化在其他新数据上。

早期的算法纠错，涉及到对整个训练数据集的遍历，计算损失函数然后再重新更新所有参数，所以计算量巨大。

损失函数就是一把度量尺，这个函数的值越小，就代表越接近实际值，所以"查找最小值"就是算法纠错里面很重要的一件事。

"梯度下降"算法在里面运行的原理，就像是一个人在徒步，想知道哪里才是这座山的最低点，但他能够感觉到脚下地面的倾斜方向，也就是我们常说的梯度，所以他决定每次都朝着梯度不断下降的方向走，一直走到最低点。

上面的例子中，这个人就是算法本身，这种方式就是算法的逻辑本身。这种方式耗费的计算量和神经元数量的平方成正比，当神经元不断增多，这么庞大的计算量用当时的硬件是没法满足的。

理论上，这种不断计算梯度，不断调整有问题的梯度参数的过程，本质上就是在自动提取和学习数据的特征，尤其适合图形识别、语音识别、自然语言这种特征识别类的业务。

1989年，计算机运行速度比二十年前提升了几个数量级，此时在贝尔实验室里，Yann Lecun在此基础上，进一步运用"梯度下降"算法来开发应用，识别了美国邮政系统提供的近万个手写的数字样本，错误率只有5%。

后面再在此基础上，Yann Lecun开发出基于"卷积神经网络"技术的商业软件，用于读取银行支票上的手写数字，在当时这个识别系统占据了美国接近20%的市场。

此时，为了能让这项技术能应用在更多的场景，包括在Yann Lecun在内每个搞神经网络开发的人，都在呼唤着更强大的计算能力。

这一刻，数量代表了质量。

模型变聪明的方式在于持续高效地不断纠错，后来我们都知道，当算力能够跟上的时候，模型就开始大杀四方。这也充分说明一个道理，当一个人的纠错（反馈）成本持续下降时，接触得越多，改得就越多，当然懂得也越多，能应用在实际生活当中的也就越多。

衡量一个人的财富，或许从这个角度来看更合理：

每天不断问自己，今天又有哪些以前认为是对的思考方式被纠正了？我今天又连接了多少个有用的信息？

大规模建立信息的有效连接，才是破除局部最优解，走向全局最优的正确方式。至于这个方式的商业化效果如何，OpenAI目前的市值就能说明一切。

你在这里能得到什么？

我始终认为：最有价值的时刻，在于你是否真正捕获了更多客观的一手信息，并修补了以前自己错误的观点，得到一些启发，这是你和大多数人真正拉开距离的时刻。

你能在这里能得到一些启发，偶尔一两个就够了，人的差距在于思维模式的差异。

文章表达个人观点仅供参考，不构成对所述资产投资建议，投资有风险，入市须谨慎.

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货