首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

云台壹号剖析金融科技中机器学习模型的错误率

云台壹号认为,为了评估机器模型是否存在过度拟合,可以计算两个指标,样本内错误率(in sample errors),与样本外错误率(out of sample errors)。其中,错误率是指模型预测值与真实值的偏离程度。如果模型在样本内错误率很低,而在样本外错误率很高,则意味着存在过度拟合。

三个总体错误率

云台壹号金融事业部负责人在一次公开采访中表示,机器学习模型存在3个总体错误率,如下:

第一:偏差错误率(biased error),衡量模型在训练样本中偏差的程度。这类错误是内生的,当模型假设越多时,偏差错误率就有可能越高。

第二:方差错误率(variance error),衡量模型在样本外的偏差程度,即模型对新数据预测产生的错误率。过度拟合的模型通常方差错误率较高。

第三:基准错误率(base error),即由数据自身的随机性导致的错误率。

一般而言,该云台壹号相关负责人补充到,设计者希望模型在欠拟合和过度拟合之间有一个平衡。这就需要在biased error(样本中偏差程度)和variance error(样本外偏差程度)之间做个选择。见下图。

在上图中,纵轴为准确率(1-错误率),横轴为训练样本的样本容量。注意,三幅图中样本内的准确率均高于样本外的准确率,这是自然的。如果模型对样本内的数据训练的准确度,都无法高于样本外的话,这个模型显然是错误的。

云台壹号认为,此外,随着样本容量的增加,如果模型具有预测能力,则样本内的准确率均开始下降,样本外的准确率均开始上升。图中的左图是欠拟合的情形,模型样本内和样本外的准确率均远低于我们要求的准确率。

中间是过度拟合的情形,样本内的准确率很高,但样本外的准确率随着样本容量的上升,其上升的幅度太小;右图是理想的模型,随着训练样本容量的上升,样本内与样本外的准确率趋于相同,并达到了预设的要求。

错误率与模型的复杂程度

通常来说,模型越复杂,偏差错误率越低(biased error),方差错误率(variance error)先下降后上升。在上例中,线性模型无疑是模型复杂度最低的,但样本错误率最高,预测准确率最低;而六次函数模型无疑是模型复杂度最高的,样本内拟合准确率也最高(偏差错误率最低,但方差错误率会很高,存在过度拟合)。

——“因此模型复杂度既不宜太高,也不能过低。在本例中,二次函数模型的复杂程度就比较适中。”云台壹号该相关负责人总结道。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201031A081X300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券