首页
学习
活动
专区
工具
TVP
发布

Python数据科学

专栏作者
619
文章
868493
阅读量
105
订阅数
如何在交叉验证中使用SHAP?
在许多情况下,机器学习模型比传统线性模型更受欢迎,因为它们具有更好的预测性能和处理复杂非线性数据的能力。然而,机器学习模型的一个常见问题是它们缺乏可解释性。例如,集成方法如XGBoost和随机森林将许多个体学习器的结果组合起来生成结果。尽管这通常会带来更好的性能,但它使得难以知道数据集中每个特征对输出的贡献。为了解决这个问题,可解释人工智能(explainable AI, xAI)被提出并越来越受欢迎。xAI领域旨在解释这些不可解释的模型(所谓的黑匣子模型)如何进行预测,实现最佳的预测准确性和可解释性。这样做的动机在于,许多机器学习的真实应用场景不仅需要良好的预测性能,还要解释生成结果的方式。例如,在医疗领域,可能会根据模型做出的决策而失去或挽救生命,因此了解决策的驱动因素非常重要。此外,能够识别重要变量对于识别机制或治疗途径也很有帮助。最受欢迎、最有效的xAI技术之一是SHAP。
Python数据科学
2024-04-17
140
多项式朴素贝叶斯分类器(Python代码)
在这篇文章中,我们介绍多项式朴素贝叶斯分类器是如何工作的,然后使用scikit-learn作为实际工作的示例来介绍如何使用。
Python数据科学
2024-04-10
1540
最新特征筛选方法--Deep Lasso
虽然已有有很多关于特征选择的方法,但大多数是基于传统机器学习算法,或者是选择特征用于训练传统机器学习算法。
Python数据科学
2024-04-10
560
Vintage分析表计算过程详解
信贷风控领域中,经常用到账龄Vintage报表,这是入门初学者的难点之一,因为它涉及到用户还款、逾期等多种行为以及业务上的多种统计口径,因此很多朋友一直无法将逻辑梳理清楚。本次来给大家详细介绍Vintage报表的底层计算逻辑是什么样的。
Python数据科学
2024-03-18
1850
CART决策树暴力生成风控规则
上一篇我们介绍了决策树节点信息更新的方法风控规则的决策树可视化(升级版),以辅助我们制定风控规则,可视化的方法比较直观,适合做报告展示,但分析的时候效果没那么高。
Python数据科学
2024-03-18
520
时间序列平稳性检验方法(Python)
当我们拿到时序数据后,首先要进行平稳性和纯随机性的检验,这两个重要的检验是时间序列的预处理。根据检验的结果可以判断出序列属于什么类型,然后对症下药使用相应的分析方法。
Python数据科学
2024-03-05
2240
深度!图解神经网络的数学原理
如今,熟练使用像 Keras、TensorFlow 或 PyTorch 之类的专用框架和高级程序库后,我们不用再经常费心考虑神经网络模型的大小,或者记住激活函数和导数的公式什么的。有了这些库和框架,我们创建一个神经网络,哪怕是架构很复杂的网络,往往也只是需要几个导入和几行代码而已。如下示例:
Python数据科学
2024-03-04
900
时间序列 ACF 和 PACF 理解、代码、可视化
我们说时间序列可以被预测,主要基于以下事实:我们可以部分掌握影响该时间序列的因素的变化情况。换句话说,对时间序列进行预测,其实就是利用各种理论和工具,对观察到的时间序列进行“抽丝剥茧”,以试图掌握其变化的本质,从而对未来的表现进行预测。
Python数据科学
2024-02-05
2850
大更新,pandas终于有case_when方法了!
数分小伙伴们都知道,SQL中的case when语句非常好用,尤其在加工变量的时候,可以按照指定的条件的进行赋值,并且结合其他嵌套用法还可以实现非常强大的功能。
Python数据科学
2024-02-05
1290
klib,一个加速数据清洗的神器!
klib提供了一系列非常易于应用的函数,具有合理的默认值,几乎可以用在任何DataFrame上,用于评估数据质量、获得灵感、执行数据清洗和可视化,从而更轻便、更高效的处理Python Pandas DataFrame数据。
Python数据科学
2024-01-17
1300
吴恩达最新预测:关于AI,这些事未来十年不会变
人工智能的发展速度超过以往任何时期,这一现象令人振奋。然而,快速变化可能导致迷失方向。在这种情况下,遵循杰夫·贝佐斯(Jeff Bezos)的建议是非常有益的,不仅要考虑变化中的因素,还要思考那些保持不变的因素。如果事物没有改变,投入精力和努力就更加值得。
Python数据科学
2024-01-04
1850
Jupyter Notebook的10个常用扩展介绍
Jupyter Notebook(前身为IPython Notebook)是一种开源的交互式计算和数据可视化的工具,广泛用于数据科学、机器学习、科学研究和教育等领域。它提供了一个基于Web的界面,允许用户创建和共享文档,这些文档包含实时代码、方程、可视化和文本。
Python数据科学
2024-01-03
980
pandas实战:用户消费行为画像
该项目主要对某平台用户消费行为进行画像分析,通过pandas的灵活使用,对月销量、客户复购率、回购率、客户分层、高质量客户、留存率、消费间隔等进行多维度分析。以下为部分节选内容,完整数据和代码可在文末扫码了解👇
Python数据科学
2024-01-02
1560
风控实战:用Python实现vintage报表
大家好,我是东哥。本篇继续分享风控的内容,关于如何用python实现vintage报表及可视化图的实战。
Python数据科学
2023-12-26
2090
数据挖掘实战:聚类分群实现精准营销
本实战案例介绍如何通过无监督的聚类算法对银行客户进行分群。所谓物以类聚,人以群分,有相似属性、行为特征等的客户就可以聚合为一类人群。在信贷风控中,聚类分群多应用于没有Y标签的场景,如反欺诈、客户画像等。
Python数据科学
2023-12-13
1780
风控策略:客户分群策略详解
客户分群策略主要应用在贷前场景中。简单来说就是根据客户的不同维度将客户划分到不同的群体或组中,划分后的群组之间有一定的风险差异性或者业务含义。
Python数据科学
2023-12-12
3130
实例解析:神经网络的工作原理
在机器学习和相关领域,人工神经网络的计算模型灵感正是来自生物神经网络:每个神经元与其他神经元相连,当它兴奋时,就会像相邻的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个阈值,那么它就会被激活(兴奋),向其他神经元发送化学物质。
Python数据科学
2023-12-04
2430
风控模型:PSI 稳定性指标详解(Python)
在风控中,风险意味着不确定性,不确定性越强意味着越不可控,做数据化风控也是同理,追求的就是让确定性越来越强,转换成统计概率论来说就是不断提高我们的胜算的概率。当然,没有任何人可以做到100%的确定,因为没有人是上帝视角,所以在风控决策过程中总会产生错杀或者误放。
Python数据科学
2023-11-30
9700
Sklearn 的 10 个小众宝藏级方法!
虽然Sklearn中有很多内置的预处理操作可以放进pipeline管道,但很多时候并不能满足我们的需求。
Python数据科学
2023-11-14
2241
安利一个小众的特征筛选神器!
特征选择是机器学习建模流程中最重要的步骤之一,特征选择的好坏直接决定着模型效果的上限,好的特征组合甚至比模型算法更重要。除了模型效果外,特征选择还有以下几点好处:
Python数据科学
2023-11-14
2650
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档