前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >送书 | 史上最系统全面的预处理教程来了!

送书 | 史上最系统全面的预处理教程来了!

作者头像
我被狗咬了
发布2021-02-25 18:00:29
3140
发布2021-02-25 18:00:29
举报
文章被收录于专栏:Python乱炖Python乱炖

“三天了,我还在做数据预处理。”

“第一步就卡住了,数据预处理也太难了吧!”

“妈呀,弄了我几个月的问题,原因竟然是我预处理数据的时候方法不好。”

“脑子空空如也,此时此刻,为啥没有人告诉我,原来我可以死在数据预处理上。”

……

网上随手搜一下,就会发现对数据预处理的抱怨比比皆是。围绕数据预处理的关键词有两个——“重要”“难”。很多数据分析相关的图书和文章都这样介绍预处理:

预处理的工作量占数据分析任务的80%

预处理是数据分析中必不可少的工程

预处理之所以重要,是因为它会对后续的数据分析质量、模型预测精度产生极大影响。我们在实际项目中拿到的数据往往是杂乱无章的(数据缺失、数据不一致、数据重复等),要想应用恰当的分析方法得到理想结果,就必须通过一些方法提高数据质量,而这就是预处理的工作。

然而,预处理如此重要,市面上相关图书却少之又少,原因在于预处理是一项难以总结的技术,其知识不够体系。这就导致我们只能得到一些碎片式的信息,无法系统了解。专业资料之匮乏,可能也是下面这本《数据预处理从入门到实战:基于SQL、R、Python》原版一上市就迅速进入日亚计算机类图书销量排行榜No1,并在3个月内重印4次的原因之一。

一本书掌握大数据、人工智能时代需要的数据预处理技术

KDD CUP 2015亚军得主多行业实战经验总结

[日]本桥智光 著

陈涛 译

如果你对数据预处理感兴趣,或者正在受其困扰,不妨读一读这本书。

本书结构

(覆盖各种类型的数据预处理任务,系统而全面)

本书特色

54道例题,涵盖常见数据预处理技术

本书采用问题驱动式结构,先抛出常见预处理任务,引导读者思考如何实现。像这样带着问题学习,可以大大提高学习效果,让理解更深入。

(本书例题示例)

3种语言实现对比,把握每种语言的特长

分别用SQL、R、Python对比解决相同的案例问题,可以了解各语言在处理各种预处理问题时有哪些优缺点,从而根据情况选择合适的语言,提升预处理效率。

左右滑动查看更多

同时给出一般代码与理想代码,优化处理的关键一目了然

对于每道例题,都同时给出用SQL、R、Python3种语言缩写的一般代码与理想代码,并对代码中的关键点进行说明。读者不仅可以边阅读边思考如何修改一般代码,还可以通过与理想代码的对比明白如何优化代码。

SQL一般代码

VS

SQL理想代码

R一般代码

VS

R理想代码

Python一般代码

VS

Python理想代码

通过3个综合的实战案例,带领读者体验真实的预处理过程

(案例之一)

(针对案例首先给出预处理步骤,再分步骤详细讲解)

读者对象

本书适合新手数据科学家和对数据分析、数据挖掘感兴趣的读者阅读。

初学者可以先浏览目录,选择感兴趣的章节仔细阅读,以在自己的业务中灵活应用;有一定经验的读者通过阅读本书,可以查漏补缺,进一步提高预处理效率。

任何工作都有辉煌的瞬间,例如足球运动员进球的瞬间,厨师大火收汁后菜肴出锅的瞬间,专家顾问做报告的瞬间。而对于数据科学家,最辉煌的大概就是有了奇妙的发现或创建出高精度模型的那个瞬间。辉煌的瞬间是否会到来,与前一阶段准备工作的好坏密切相关。不同于那一刻辉煌的瞬间,准备的过程往往平淡无奇且漫长,但成败也正是在这一阶段决定的。如果你的目标是成为一流的数据科学家,那就跟随本书,把平淡无奇的预处理做到极致吧!

送书规则

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-02-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python乱炖 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档