机器学习是最容易得到错误结论的一种解决方案

统计学家

发布于 2019-06-18 14:49:35

6040

发布于 2019-06-18 14:49:35

文章被收录于专栏：机器学习与统计学

作者：微调@zhihu 编辑：统计学家

1. 永远保持怀疑

机器学习是最容易得到错误结论的一种解决方案。和编程、做表格、或者纯粹的数学建模不同，机器学习是由数据驱动，并有很强的黑箱性。因此很多时候容易得出似是而非的结论。举个最简单的例子：伪相关/虚假相关（spurious correlation），两个变量很容易看起来有很强的相关（参看图1和2），然而这仅仅是偶然。因此当机器学习模型很轻松就达到很好的效果时，比如百分之百的正确率，你要警惕。除了过拟合以外，你很有可能包含了某个不该使用的强特征，甚至把标签y也当做特征使用了。

图1. 奶酪消耗量与被死于床单(交缠)之间的关联性 [1]

图2. 非商业性空间飞船发射数量与社会学博士毕业数量之间的关系[1]

2. 寻找“最小预测单元”，避免追求通过一个模型预测多个目标

最清晰易懂，且容易证明正误的模型就是目标明确的模型。我们得知业务需求以后，尽量把预测范围控制好，不要被同时实现多个目标所诱惑。

举例，如果客户的需要是预测明天的天气，那就做一个纯粹的天气预测模型，不要瞻前顾后的想要同时预测湿度、温度等相关但不是根本的问题。你想要通过单个模型得到的结论越多，往往建模和调参就越复杂。从单一问题入手，再逐步扩展，甚至将知识迁移，都是可以的。

3. 简单有效的模型最好，不要完全弃用“人为规则”

首先不要为了使用模型而创造问题：机器学习的目标是解决问题。因此，从简单到复杂模型的“进化”才是比较合理的方案。比如如果能用监督，就监督学习。退而求其次才选择半监督或者无监督。

另一个经验是，如果一个问题有现成的规则，不要完全弃用，也不要追求用机器学习模型彻底替代规则。可以从半自动模型到自动模型进行“升级“，这可以理解为迭代过程。比如在机器学习模型不成熟、数据量不够的时候，仅当模型评分高且符合人为规则时才使用其预测结果，置信度低的预测结果依然使用规则预测或者人为验证。等到数据量和数据质量上去了，再逐步替换或者舍弃人为规则。

升级进化是锦上添花，不是雪中送炭。在商业上，我们告诉客户这叫做“混合系统”Hybrid System，但机器学习上这个叫“主动学习”(active learning)。

4. 考虑的数据的依赖性（dependency）

数据往往有时序或者空间上的相关性。如果不考虑时空依赖性，问题往往会得到简化，但可能有严重偏差。如果需要考虑时间与空间上的依赖性，优先从简单的角度入手。

举个简单的例子，图2和图3中的数据如果不考虑时空依赖性，都会导致错误的理解。解决机器学习问题，如果在不确定数据的结构关系时，有限假设不存在依赖。如果效果不好，再换用更复杂的，可以处理依赖性的模型。

图2. O点在单独来看的情况下是正常点，但考虑到临近点后就是异常点 [2]

图3. 红色部分单独来看不是异常，但考虑到临近点的时间关系后就是异常点 [3]

5. 从回归到分类、从全部数据到部分数据、从连续到离散

5.1. 在特定情况下，因为条件限制，我们的回归模型效果不好或者要求的精度比较低，可以把回归问题转化为分类问题。

图4. 将预测涨跌幅度转化为单纯预测“涨”和“跌”

5.2. 同理，如果数据的质量不连贯，我们可以大胆的抛弃掉一部分数据。比如下图中所描述的情况，抛弃掉一部分数据可以增强中间区段的模型拟合能力。当然，由精简数据后得到的模型不该被用于预测抛弃数据段。

图5. 去掉一部分数据后，模型拟合程度可能会大幅度提高[4]

5.3. 如果需要，对于特征也可以做离散化。连续变量：变量在特定区间内有无限个可能取值，如股票的价格。离散变量：变量在特定区间内的可选取值有限，比如{红、蓝、黄}三种颜色。从数学角度看，连续变量往往可以被离散化，从而转为离散变量。这种转化可以依赖于固定区间，或者固定密度，甚至是变化的条件。将连续变量离散化适合广义线性模型，如逻辑回归，而不适合树模型或者神经网络。连续特征离散化的优点：