首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

一个完整的机器学习项目在Python中演练(四)

【磐创AI导读】:本文是一个完整的机器学习项目在python中的演练系列第第四篇。详细介绍了超参数调整与模型在测试集上的评估两个步骤。欢迎大家点击上方蓝字关注我们的公众号:磐创AI。 大家往往会选择一本数据科学相关书籍或者完成一门在线课程来学习和掌握机器学习。但是,实际情况往往是,学完之后反而并不清楚这些技术怎样才能被用在实际的项目流程中。就像你的脑海中已经有了一块块”拼图“(机器学习技术),你却不知道如何讲他们拼起来应用在实际的项目中。如果你也遇见过同样的问题,那么这篇文章应该是你想要的。本系列文章将介绍

05

开发 | 如何解决机器学习中的数据不平衡问题?

在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。 数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。 本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路: 1、重新采样训练集 可以使用不同的数据集。有两种方法使不平衡的数据集来建立一个平衡的数据集——欠采样和过采样。 1.1. 欠采样 欠采样是通过减少丰富类的大小来平衡

011

【智能】机器学习:信用风险建模中的挑战,教训和机遇

由于数据可用性和计算能力的快速增长,机器学习现在在技术和业务中发挥着至关重要的作用。机器学习对信用风险建模应用程序有重大贡献。 使用两个大型数据集,我们分析了一组机器学习方法在评估中小型借款人的信用风险方面的表现,其中穆迪分析RiskCalc模型作为基准模型。 我们发现机器学习模型提供了与RiskCalc模型相似的准确率。 但是,它们比RiskCalc模型更像是一个“黑匣子”,机器学习方法产生的结果有时难以解释。 机器学习方法可以更好地拟合解释变量与违约风险之间的非线性关系。 我们还发现,无论使用何种模型,使用更广泛的变量来预测默认值都会大大提高准确率。

04
领券