腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Python数据科学
专栏作者
举报
619
文章
868493
阅读量
105
订阅数
订阅专栏
申请加入专栏
全部文章
python
编程算法
https
机器学习
神经网络
深度学习
网络安全
数据分析
sql
github
其他
git
数据
人工智能
数据库
开源
爬虫
http
模型
云数据库 SQL Server
数据挖掘
numpy
pandas
大数据
决策树
数据处理
函数
ide
html
matlab
可视化
java
统计
api
数据可视化
数据结构
变量
javascript
网站
微信
tensorflow
android
缓存
spark
强化学习
正则表达式
线性回归
keras
windows
php
腾讯云测试服务
游戏
监督学习
markdown
算法
索引
NLP 服务
json
文件存储
c++
存储
分布式
自动化
gui
scikit-learn
机器人
基础
技巧
bash
linux
unix
图像处理
电商
pytorch
表格
工具
优化
原理
c 语言
go
node.js
xml
批量计算
企业
serverless
hive
grep
scrapy
anaconda
安全
jupyter notebook
chatgpt
excel
plot
sum
对象
排序
异常
字符串
对象存储
语音识别
人脸识别
比特币
区块链
自动驾驶
scala
css
sqlite
nosql
postgresql
django
全文检索
spring
mapreduce
短视频
NAT 网关
svg
压力测试
shell
hadoop
卷积神经网络
sql server
selenium
tcp/ip
迁移学习
nat
kafka
特征工程
分类算法
5g
学习方法
jupyter
kaggle
metrics
partition
self
subset
报表
编码
测试
插件
工作
计算机
事件
数学
系统
云服务器
官方文档
数字货币
ios
mac os
xcode
perl
ruby
r 语言
bootstrap
vue.js
ajax
qt
嵌入式
oracle
云数据库 Redis
flask
ruby on rails
vba
jar
中文分词
bash 指令
容器镜像服务
日志服务
访问管理
命令行工具
数据加密服务
腾讯git代码托管(工蜂)
机器翻译
知识图谱
大数据处理套件 TBDS
mongodb
日志数据
o2o
数据安全
yarn
underscore
云数据库 MySQL
容器
运维
黑客
图像识别
jvm
ssh
面向对象编程
hashmap
推荐系统
asp
kotlin
rpc
socket编程
uml
hexo
小程序
系统架构
微服务
sas
腾讯云开发者社区
视频分析
聚类算法
unicode
utf8
接口测试
Elasticsearch Service
汽车
bat
cart
case
cat
com
data
date
definition
duplicates
embedding
frame
function
gif
google
gps
gpt
gradient
import
input
lag
list
lstm
mask
merge
mysql
padding
pascal
pca
pipe
rank
row
sample
sequence
series
size
sort
statsmodels
svm
tabular
torch
transform
百度
笔记
编程
博客
布局
产品
产品经理
登录
递归
动画
互联网
华为
架构
教程
开发
框架
量化
流量
路由
命令行
内存
内核
入门
设计
生命周期
实践
视频
数据科学
数据类型
数组
思维导图
搜索
腾讯
图表
效率
性能
终端
数据清洗
数据转换
LLM
搜索文章
搜索
搜索
关闭
如何在交叉验证中使用SHAP?
模型
数据
索引
优化
测试
在许多情况下,机器学习模型比传统线性模型更受欢迎,因为它们具有更好的预测性能和处理复杂非线性数据的能力。然而,机器学习模型的一个常见问题是它们缺乏可解释性。例如,集成方法如XGBoost和随机森林将许多个体学习器的结果组合起来生成结果。尽管这通常会带来更好的性能,但它使得难以知道数据集中每个特征对输出的贡献。为了解决这个问题,可解释人工智能(explainable AI, xAI)被提出并越来越受欢迎。xAI领域旨在解释这些不可解释的模型(所谓的黑匣子模型)如何进行预测,实现最佳的预测准确性和可解释性。这样做的动机在于,许多机器学习的真实应用场景不仅需要良好的预测性能,还要解释生成结果的方式。例如,在医疗领域,可能会根据模型做出的决策而失去或挽救生命,因此了解决策的驱动因素非常重要。此外,能够识别重要变量对于识别机制或治疗途径也很有帮助。最受欢迎、最有效的xAI技术之一是SHAP。
Python数据科学
2024-04-17
14
0
多项式朴素贝叶斯分类器(Python代码)
模型
数据
python
工作
函数
在这篇文章中,我们介绍多项式朴素贝叶斯分类器是如何工作的,然后使用scikit-learn作为实际工作的示例来介绍如何使用。
Python数据科学
2024-04-10
154
0
最新特征筛选方法--Deep Lasso
算法
表格
测试
模型
数据
虽然已有有很多关于特征选择的方法,但大多数是基于传统机器学习算法,或者是选择特征用于训练传统机器学习算法。
Python数据科学
2024-04-10
56
0
Vintage分析表计算过程详解
data
date
报表
数据
统计
信贷风控领域中,经常用到账龄Vintage报表,这是入门初学者的难点之一,因为它涉及到用户还款、逾期等多种行为以及业务上的多种统计口径,因此很多朋友一直无法将逻辑梳理清楚。本次来给大家详细介绍Vintage报表的底层计算逻辑是什么样的。
Python数据科学
2024-03-18
185
0
CART决策树暴力生成风控规则
函数
决策树
cart
变量
对象
上一篇我们介绍了决策树节点信息更新的方法风控规则的决策树可视化(升级版),以辅助我们制定风控规则,可视化的方法比较直观,适合做报告展示,但分析的时候效果没那么高。
Python数据科学
2024-03-18
52
0
时间序列平稳性检验方法(Python)
基础
可视化
量化
数据
python
当我们拿到时序数据后,首先要进行平稳性和纯随机性的检验,这两个重要的检验是时间序列的预处理。根据检验的结果可以判断出序列属于什么类型,然后对症下药使用相应的分析方法。
Python数据科学
2024-03-05
224
0
深度!图解神经网络的数学原理
框架
模型
数据
神经网络
函数
如今,熟练使用像 Keras、TensorFlow 或 PyTorch 之类的专用框架和高级程序库后,我们不用再经常费心考虑神经网络模型的大小,或者记住激活函数和导数的公式什么的。有了这些库和框架,我们创建一个神经网络,哪怕是架构很复杂的网络,往往也只是需要几个导入和几行代码而已。如下示例:
Python数据科学
2024-03-04
90
0
时间序列 ACF 和 PACF 理解、代码、可视化
模型
统计
statsmodels
函数
可视化
我们说时间序列可以被预测,主要基于以下事实:我们可以部分掌握影响该时间序列的因素的变化情况。换句话说,对时间序列进行预测,其实就是利用各种理论和工具,对观察到的时间序列进行“抽丝剥茧”,以试图掌握其变化的本质,从而对未来的表现进行预测。
Python数据科学
2024-02-05
285
0
大更新,pandas终于有case_when方法了!
case
pandas
对象
函数
数组
数分小伙伴们都知道,SQL中的case when语句非常好用,尤其在加工变量的时候,可以按照指定的条件的进行赋值,并且结合其他嵌套用法还可以实现非常强大的功能。
Python数据科学
2024-02-05
129
0
klib,一个加速数据清洗的神器!
数据清洗
函数
可视化
数据
图表
klib提供了一系列非常易于应用的函数,具有合理的默认值,几乎可以用在任何DataFrame上,用于评估数据质量、获得灵感、执行数据清洗和可视化,从而更轻便、更高效的处理Python Pandas DataFrame数据。
Python数据科学
2024-01-17
130
0
吴恩达最新预测:关于AI,这些事未来十年不会变
人工智能
工具
基础
模型
数据
人工智能的发展速度超过以往任何时期,这一现象令人振奋。然而,快速变化可能导致迷失方向。在这种情况下,遵循杰夫·贝佐斯(Jeff Bezos)的建议是非常有益的,不仅要考虑变化中的因素,还要思考那些保持不变的因素。如果事物没有改变,投入精力和努力就更加值得。
Python数据科学
2024-01-04
185
0
Jupyter Notebook的10个常用扩展介绍
jupyter
工具
模型
数据
数据科学
Jupyter Notebook(前身为IPython Notebook)是一种开源的交互式计算和数据可视化的工具,广泛用于数据科学、机器学习、科学研究和教育等领域。它提供了一个基于Web的界面,允许用户创建和共享文档,这些文档包含实时代码、方程、可视化和文本。
Python数据科学
2024-01-03
98
0
pandas实战:用户消费行为画像
pandas
变量
生命周期
数据
统计
该项目主要对某平台用户消费行为进行画像分析,通过pandas的灵活使用,对月销量、客户复购率、回购率、客户分层、高质量客户、留存率、消费间隔等进行多维度分析。以下为部分节选内容,完整数据和代码可在文末扫码了解👇
Python数据科学
2024-01-02
156
0
风控实战:用Python实现vintage报表
数据挖掘
python
报表
可视化
数据
大家好,我是东哥。本篇继续分享风控的内容,关于如何用python实现vintage报表及可视化图的实战。
Python数据科学
2023-12-26
209
0
数据挖掘实战:聚类分群实现精准营销
数据挖掘
产品
可视化
设计
数据
本实战案例介绍如何通过无监督的聚类算法对银行客户进行分群。所谓物以类聚,人以群分,有相似属性、行为特征等的客户就可以聚合为一类人群。在信贷风控中,聚类分群多应用于没有Y标签的场景,如反欺诈、客户画像等。
Python数据科学
2023-12-13
178
0
风控策略:客户分群策略详解
决策树
变量
模型
数据
算法
客户分群策略主要应用在贷前场景中。简单来说就是根据客户的不同维度将客户划分到不同的群体或组中,划分后的群组之间有一定的风险差异性或者业务含义。
Python数据科学
2023-12-12
313
0
实例解析:神经网络的工作原理
神经网络
工作
模型
数据
原理
在机器学习和相关领域,人工神经网络的计算模型灵感正是来自生物神经网络:每个神经元与其他神经元相连,当它兴奋时,就会像相邻的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个阈值,那么它就会被激活(兴奋),向其他神经元发送化学物质。
Python数据科学
2023-12-04
243
0
风控模型:PSI 稳定性指标详解(Python)
python
list
变量
模型
统计
在风控中,风险意味着不确定性,不确定性越强意味着越不可控,做数据化风控也是同理,追求的就是让确定性越来越强,转换成统计概率论来说就是不断提高我们的胜算的概率。当然,没有任何人可以做到100%的确定,因为没有人是上帝视角,所以在风控决策过程中总会产生错杀或者误放。
Python数据科学
2023-11-30
970
0
Sklearn 的 10 个小众宝藏级方法!
函数
模型
数据
算法
异常
虽然Sklearn中有很多内置的预处理操作可以放进pipeline管道,但很多时候并不能满足我们的需求。
Python数据科学
2023-11-14
224
1
安利一个小众的特征筛选神器!
自动化
cat
函数
模型
数据
特征选择是机器学习建模流程中最重要的步骤之一,特征选择的好坏直接决定着模型效果的上限,好的特征组合甚至比模型算法更重要。除了模型效果外,特征选择还有以下几点好处:
Python数据科学
2023-11-14
265
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档