xgboost特征选择

Xgboost在各大数据挖掘比赛中是一个大杀器,往往可以取得比其他各种机器学习算法更好的效果。数据预处理,特征工程,调参对Xgboost的效果有着非常重要的影响。这里介绍一下运用xgboost的特征选择,运用xgboost的特征选择可以筛选出更加有效的特征代入Xgboost模型。

这里采用的数据集来自于Kaggle | Allstate Claims Severity比赛,

https://www.kaggle.com/c/allstate-claims-severity/data

这里的训练集如下所示,有116个离散特征(cat1-cat116),14个连续特征(cont1 -cont14),离散特征用字符串表示,先要对其进行数值化:

  1. id cat1 cat2 cat3 cat4 cat5 cat6 cat7 cat8 cat9 ... cont6 \
  2. 0 1 A B A B A A A A B ... 0.718367
  3. 1 2 A B A A A A A A B ... 0.438917
  4. 2 5 A B A A B A A A B ... 0.289648
  5. 3 10 B B A B A A A A B ... 0.440945
  6. 4 11 A B A B A A A A B ... 0.178193
  7. cont7 cont8 cont9 cont10 cont11 cont12 cont13 \
  8. 0 0.335060 0.30260 0.67135 0.83510 0.569745 0.594646 0.822493
  9. 1 0.436585 0.60087 0.35127 0.43919 0.338312 0.366307 0.611431
  10. 2 0.315545 0.27320 0.26076 0.32446 0.381398 0.373424 0.195709
  11. 3 0.391128 0.31796 0.32128 0.44467 0.327915 0.321570 0.605077
  12. 4 0.247408 0.24564 0.22089 0.21230 0.204687 0.202213 0.246011

xgboost的特征选择的代码如下:

http://blog.csdn.net/qq_34264472/article/details/53363384

本文分享自微信公众号 - 大数据挖掘DT数据分析(datadw)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-10-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 入门数据分析,我应该学习什么编程语言?

    很多时候,当和人们讨论怎么开始学习数据科学,一个疑惑总是出现在我们面前: 我不知道应该学什么编程语言。 不仅仅是编程语言,这还包括软件系统,例如TABLEAU,...

    机器学习AI算法工程
  • 用R语言实现对不平衡数据的四种处理方法

    在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。那么,这种结果是为何发生的呢?到底是什么...

    机器学习AI算法工程
  • 入门数据分析,我应该学习什么编程语言?

    很多时候,当和人们讨论怎么开始学习数据科学,一个疑惑总是出现在我们面前: 我不知道应该学什么编程语言。 不仅仅是编程语言,这还包括软件系统,例如TABLEAU...

    机器学习AI算法工程
  • Java面试题-基础篇一

    可以有多个类,但只能有一个public的类,并且public的类名必须和文件名一致。

    Rookie
  • XXE漏洞:DocumentBuilder使用之殇

    xxe这种漏洞无论是在php中还是java中,审计起来应该都是有迹可循的,在php中全局搜索特定函数,在java中需要找解析xml文档的类有没有被使用,所以,我...

    tnt阿信
  • 谷歌网页打不开了怎么办?

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    云雀叫了一整天
  • 2018 AI in China之智能制造数据驱动产业变革高峰论坛在京召开

    数据猿
  • OpenCV 斑点检测

    斑点通常是指与周围有着颜色和灰度差别的区域。有时图像中的斑点也是我们关心的区域,比如在医学影像中或质量检测领域,我们需要从一些X光图片或普通光学照片中提取一些具...

    用户6021899
  • 区块链101:以太智能合同如何运作?

    和区块链行业的许多想法一样,普遍的困惑也被称为“智能合同”。 一项由公共区块链所制造的新技术,智能合同难以理解,因为这一术语在一定程度上混淆了所描述的核心交互。...

    首席架构师智库
  • 数据分析师最不能错过的数据是什么?

    作为一名数据分析师最不能错过的数据是什么?当然是和每一位数据分析师息息相关的,决定大家是吃土还是吃面包的招聘数据。

    1480

扫码关注云+社区

领取腾讯云代金券