腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Python数据科学

专栏作者

619

文章

868493

阅读量

105

订阅数

如何在交叉验证中使用SHAP？

模型数据索引优化测试

在许多情况下，机器学习模型比传统线性模型更受欢迎，因为它们具有更好的预测性能和处理复杂非线性数据的能力。然而，机器学习模型的一个常见问题是它们缺乏可解释性。例如，集成方法如XGBoost和随机森林将许多个体学习器的结果组合起来生成结果。尽管这通常会带来更好的性能，但它使得难以知道数据集中每个特征对输出的贡献。为了解决这个问题，可解释人工智能（explainable AI, xAI）被提出并越来越受欢迎。xAI领域旨在解释这些不可解释的模型（所谓的黑匣子模型）如何进行预测，实现最佳的预测准确性和可解释性。这样做的动机在于，许多机器学习的真实应用场景不仅需要良好的预测性能，还要解释生成结果的方式。例如，在医疗领域，可能会根据模型做出的决策而失去或挽救生命，因此了解决策的驱动因素非常重要。此外，能够识别重要变量对于识别机制或治疗途径也很有帮助。最受欢迎、最有效的xAI技术之一是SHAP。

Python数据科学

2024-04-17

140

多项式朴素贝叶斯分类器(Python代码)

模型数据 python 工作函数

在这篇文章中，我们介绍多项式朴素贝叶斯分类器是如何工作的，然后使用scikit-learn作为实际工作的示例来介绍如何使用。

Python数据科学

2024-04-10

1540

最新特征筛选方法--Deep Lasso

算法表格测试模型数据

虽然已有有很多关于特征选择的方法，但大多数是基于传统机器学习算法，或者是选择特征用于训练传统机器学习算法。

Python数据科学

2024-04-10

560

Vintage分析表计算过程详解

data date 报表数据统计

信贷风控领域中，经常用到账龄Vintage报表，这是入门初学者的难点之一，因为它涉及到用户还款、逾期等多种行为以及业务上的多种统计口径，因此很多朋友一直无法将逻辑梳理清楚。本次来给大家详细介绍Vintage报表的底层计算逻辑是什么样的。

Python数据科学

2024-03-18

1850

CART决策树暴力生成风控规则

函数决策树 cart 变量对象

上一篇我们介绍了决策树节点信息更新的方法风控规则的决策树可视化（升级版），以辅助我们制定风控规则，可视化的方法比较直观，适合做报告展示，但分析的时候效果没那么高。

Python数据科学

2024-03-18

520

时间序列平稳性检验方法（Python）

基础可视化量化数据 python

当我们拿到时序数据后，首先要进行平稳性和纯随机性的检验，这两个重要的检验是时间序列的预处理。根据检验的结果可以判断出序列属于什么类型，然后对症下药使用相应的分析方法。

Python数据科学

2024-03-05

2240

深度！图解神经网络的数学原理

框架模型数据神经网络函数

如今，熟练使用像 Keras、TensorFlow 或 PyTorch 之类的专用框架和高级程序库后，我们不用再经常费心考虑神经网络模型的大小，或者记住激活函数和导数的公式什么的。有了这些库和框架，我们创建一个神经网络，哪怕是架构很复杂的网络，往往也只是需要几个导入和几行代码而已。如下示例：

Python数据科学

2024-03-04

900

时间序列 ACF 和 PACF 理解、代码、可视化

模型统计 statsmodels 函数可视化

我们说时间序列可以被预测，主要基于以下事实：我们可以部分掌握影响该时间序列的因素的变化情况。换句话说，对时间序列进行预测，其实就是利用各种理论和工具，对观察到的时间序列进行“抽丝剥茧”，以试图掌握其变化的本质，从而对未来的表现进行预测。

Python数据科学

2024-02-05

2850

大更新，pandas终于有case_when方法了！

case pandas 对象函数数组

数分小伙伴们都知道，SQL中的case when语句非常好用，尤其在加工变量的时候，可以按照指定的条件的进行赋值，并且结合其他嵌套用法还可以实现非常强大的功能。

Python数据科学

2024-02-05

1290

klib，一个加速数据清洗的神器！

数据清洗函数可视化数据图表

klib提供了一系列非常易于应用的函数，具有合理的默认值，几乎可以用在任何DataFrame上，用于评估数据质量、获得灵感、执行数据清洗和可视化，从而更轻便、更高效的处理Python Pandas DataFrame数据。

Python数据科学

2024-01-17

1300

吴恩达最新预测：关于AI，这些事未来十年不会变

人工智能工具基础模型数据

人工智能的发展速度超过以往任何时期，这一现象令人振奋。然而，快速变化可能导致迷失方向。在这种情况下，遵循杰夫·贝佐斯（Jeff Bezos）的建议是非常有益的，不仅要考虑变化中的因素，还要思考那些保持不变的因素。如果事物没有改变，投入精力和努力就更加值得。

Python数据科学

2024-01-04

1850

Jupyter Notebook的10个常用扩展介绍

jupyter 工具模型数据数据科学

Jupyter Notebook（前身为IPython Notebook）是一种开源的交互式计算和数据可视化的工具，广泛用于数据科学、机器学习、科学研究和教育等领域。它提供了一个基于Web的界面，允许用户创建和共享文档，这些文档包含实时代码、方程、可视化和文本。

Python数据科学

2024-01-03

980

pandas实战：用户消费行为画像

pandas 变量生命周期数据统计

该项目主要对某平台用户消费行为进行画像分析，通过pandas的灵活使用，对月销量、客户复购率、回购率、客户分层、高质量客户、留存率、消费间隔等进行多维度分析。以下为部分节选内容，完整数据和代码可在文末扫码了解👇

Python数据科学

2024-01-02

1560

风控实战：用Python实现vintage报表

数据挖掘 python 报表可视化数据

大家好，我是东哥。本篇继续分享风控的内容，关于如何用python实现vintage报表及可视化图的实战。

Python数据科学

2023-12-26

2090

数据挖掘实战：聚类分群实现精准营销

数据挖掘产品可视化设计数据

本实战案例介绍如何通过无监督的聚类算法对银行客户进行分群。所谓物以类聚，人以群分，有相似属性、行为特征等的客户就可以聚合为一类人群。在信贷风控中，聚类分群多应用于没有Y标签的场景，如反欺诈、客户画像等。

Python数据科学

2023-12-13

1780

风控策略：客户分群策略详解

决策树变量模型数据算法

客户分群策略主要应用在贷前场景中。简单来说就是根据客户的不同维度将客户划分到不同的群体或组中，划分后的群组之间有一定的风险差异性或者业务含义。

Python数据科学

2023-12-12

3130

实例解析：神经网络的工作原理

神经网络工作模型数据原理

在机器学习和相关领域，人工神经网络的计算模型灵感正是来自生物神经网络：每个神经元与其他神经元相连，当它兴奋时，就会像相邻的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过了一个阈值，那么它就会被激活（兴奋），向其他神经元发送化学物质。

Python数据科学

2023-12-04

2430

风控模型：PSI 稳定性指标详解(Python)

python list 变量模型统计

在风控中，风险意味着不确定性，不确定性越强意味着越不可控，做数据化风控也是同理，追求的就是让确定性越来越强，转换成统计概率论来说就是不断提高我们的胜算的概率。当然，没有任何人可以做到100%的确定，因为没有人是上帝视角，所以在风控决策过程中总会产生错杀或者误放。

Python数据科学

2023-11-30

9700

Sklearn 的 10 个小众宝藏级方法！

函数模型数据算法异常

虽然Sklearn中有很多内置的预处理操作可以放进pipeline管道，但很多时候并不能满足我们的需求。

Python数据科学

2023-11-14

2241

安利一个小众的特征筛选神器！

自动化 cat 函数模型数据

特征选择是机器学习建模流程中最重要的步骤之一，特征选择的好坏直接决定着模型效果的上限，好的特征组合甚至比模型算法更重要。除了模型效果外，特征选择还有以下几点好处：

Python数据科学

2023-11-14

2650

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态