机器学习之熟悉与不熟悉

逍遥公子专栏 | 数据科学与数据科学家

上期回顾

在上一篇《

数据科学与数据科学家 | 快速了解数据科学

》中,我归拢了一下数据科学需要掌握的知识点及如何成为一名数据科学家。

这一篇,将阐述一个问题:机器学习,有哪些知识点是熟悉的,哪些是全新的?

3

♡ 机器学习之熟悉与不熟悉 ♡

1. 前 言

如今:人工智能、机器学习、大数据分析大行其道(我也未能免俗,投入了这一行)。

虽然我入了这一行,可心里一直都有个问题:从学科领域来讲,“数据科学”究竟属于哪个门类

计算机科学可能是大家首先想到要归属的领域,毕竟这个行当里涉及到算法和编程的内容太多太多了。但是,计算机科学里应该没有太深地探讨过机器学习里涉及到的众多统计知识和统计模型。

从理论基础上讲,统计学是毋庸置疑、与机器学习是最相关的。但统计学里也没有提太多人工智能的内容。(关于这个话题,在上一篇 《数据科学与数据科学家 | 快速了解数据科学》里有更多的讨论。)

从我个人的经历来讲:我是电子工程背景,博士期间的研究课题归属于统计信号处理。因此,得以有基础、有机会进入了人工智能、机器学习、大数据分析这个领域。

随着新学科的不断出现,对新知识的不断学习是件再正常不过的事情了。

但是,多年的学术教育还是让我养成了不断回溯、不断反思总结的学习习惯。

具体而言就是,在学一种新知识的同时,我总是会去琢磨一下:它究竟和自己以前学的东西有没有关联?有哪些是可以从过去的知识中借鉴的?有哪些观念是真正需要去旧存新,重新建立的。

因而,这篇文章就着重从工程背景的角度来聊聊:机器学习对我们而言,有哪些知识点是熟悉的,哪些又是全新的?

2. 机器学习不算一个全新知识领域

在上一个系列《大数据与工业大数据 (完整季)》中对机器学习谈了挺多的内容。虽然是针对工业领域,但其方法还是各行各业都通用的。

以机器学习中最常用的“有监督学习”为例。

除去其学习过程中的模型训练、模型验证、模型测试等关键环节外,其最核心的还是:先对数据进行特征提取,将其作为模型的输入“X”;再获取所谓有标注的样本,即获知了模型的输出“Y”。这样,在已知模型的“X”和“Y”的情况下,希望找到一个能关联输入输出两者的模型形式。

这个过程对于工程领域背景的人来看应该很熟悉吧?因为:无论是力学、材料、化工还是电子领域,这,不就是我们做研究过程中经常碰到的吗?

对于一个要解决的问题,我们先分析出相关因素,再通过实验等方式得到一组实验结果,然后希望能找出一个模型来解释这些输入因素和实验结果之间的关系。

当然,建立工程领域的模型我们都会从其物理机理出发,从力学、材料、化学、电子等理论知识中去确立一个模型的大致框架,最终确定其具体形式和参数。这中间会用到回归分析等目前机器学习中最常用的方法,也会创立些特有的方法,如通过量纲匹配来确定模型的形式等。

看到这里,可以说机器学习的方法在我们以前的工程应用中是完全有迹可循的,并不算是一个全新的知识领域。

那机器学习究竟新在哪里?有什么不一样的问题是我们没碰到的或者解决不了的呢?

3. “过拟合” vs “欠拟合”

在接触机器学习以来,我碰到最多的一个问题,(以前虽然知道,却一直没有太重视)就是模型的“过拟合”问题。

在如今,机器学习的绝大部分场景中都完全依赖数据来开发模型。这就很容易碰到:开发出来的模型只能很好地解释已获得的这部分数据,却不能很好地推广到将来的数据中去。这就是“过拟合”的问题。

但是在以前工程领域建模时,却很少会考虑“过拟合”的问题。相反,常常会更关注“欠拟合”的问题。(仔细想想,不难理解。)

前面讲过:在传统的工程领域建模中,我们都会用到大量的机理知识。这就相当于我们在建模时用到了很强的先验知识,而不是主要依赖数据去获取模型。

在这种情况下,最常碰到的困难是:我们的先验知识不够准确,因而不能很好地解释实验得到的数据,导致模型精度不够,这就是“欠拟合”的问题。

因而,在传统的工程问题解决中,“欠拟合”现象经常发生,而“过拟合”现象相对较少发生。

可以设想一下:假如我们使用的先验知识足够精准,能够和实验数据吻合,这正说明这些知识得到了验证,是可以推而广之的。

而在使用机器学习进行大数据分析的当下:我们完全不利用或少量地使用先验知识来进行模型建立,出现“过拟合”的问题也就不难理解了。

4. “深度” vs. “广度”

当然,这并不是说:大数据分析的机器学习方法就不如工程领域的建模方式。

如今需要大数据解决的很多问题都有一个共同点:涉及的范围广阔、领域众多、问题复杂。(这都是工程领域的传统建模方式不能有效解决的,只能直接从大量数据中去寻找恰当的解决方案。)

从解决实际问题的角度来看,工程领域的建模方法和用于大数据分析的机器学习的方法绝对没有“高低贵贱”之分。某种程度上,甚至可以这样理解:

工程领域依靠机理知识建模的方式是在从“深度”的方向上去解决问题。

而应用于大数据分析的,在各领域都通用的机器学习的方法是从“广度”的方向上去解决问题。

小 结

参考中国传统文化知识宝库中的“中庸之道”的思想:将“广度”和“深度”两者能结合在一起考虑,才是解决问题之道。

实际上,这种思维方式,在当今许多的应用中都已经被采纳了。

在工程研究领域,随着实验成本的降低,数据获取也更加容易,采用大数据的分析方法是势在必行的。

而在工业领域进行大数据分析时,结合工业领域的机理知识来探讨解决方案,同样是必不可少的。

深入探究两者最佳的结合方式可能是人工智能领域一个永久的主题。

以上仅为个人的一些感触和思考,欢迎大家留言探讨、批评指正。 :-)

下 期 再 见 !

小编 | 二当家

图片 | 网络

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180609G09K7000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券