本文对比筛选了『数据清理』和『特征工程』最值得推荐的5本书,帮助你有效地清理数据、获取干净核心的数据,这是后续建模分析等工作有更好结果的保证。
💡 作者:韩信子@ShowMeAI 📘 数据分析实战系列:https://www.showmeai.tech/tutorials/40 📘 机器学习实战系列:https://www.showmeai.tech/tutorials/41 📘 本文地址:https://www.showmeai.tech/article-detail/403 📢 声明:版权所有,转载请联系平台与作者并注明出处 📢 收藏ShowMeAI查看更多精彩内容
数据清理和特征工程是数据科学家和机器学习工程师们一天中最重要的部分之一,几乎我们每天都会和数据打交道,接触到这些数据工作。能够有效地清理数据获取干净核心的数据将保证后续工作有更好的结果。
关于数据清理和特征工程,欢迎大家阅读和学习ShowMeAI在📘机器学习实战:手把手教你玩转机器学习系列中对应的文章:
在本篇内容中,ShowMeAI对市面上以数据清洗和特征工程为主题的书籍进行梳理比对,找出最值得推荐的5本书,给大家做一个系统的介绍。获取方式见评论区~
🏆 实战数据集下载(百度网盘):点击 这里 获取本文 [38]好书推荐!数据清理和特征工程的5本必读书籍(附下载) 『电子书合集』
⭐ ShowMeAI官方GitHub:https://github.com/ShowMeAI-Hub
第1本推荐书是 📘Bad Data Handbook: Cleaning Up The Data So You Can Get Back to Work,这本书是 19 位机器学习从业者的论文与资料集,汇总了关于数据准备和管理的实用知识与技巧。
什么是坏数据? 学术角度可能认为它是如缺失值或格式错误的记录,但实际问题中的坏数据包括更多类型。在这本手册中,数据专家 Q. Ethan McCallum与来自数据领域的 19 位同事,讲解了他们是如何处理棘手的数据问题的。
包含下列主题:
第2本推荐书是 📘Data Wrangling with Python: Tips and Tools to Make Your Life Easier,这本书的重点是帮助我们将原始数据转化为适用于建模的数据形式的工具和方法。
数据整理是一个通用术语,包括数据清理和特征工程工作。这本书以实用的方式了解有关数据整理的更多信息。通过各种循序渐进的练习,我们可以学习如何有效地获取、清理、分析和呈现数据。也包括自动化数据处理、安排文件编辑和清理任务、处理更大的数据集以及使用您获得的数据创建引人入胜的知识。书籍的主题覆盖:
第3本推荐的书是 📘A Short Guide for Feature Engineering and Feature Selection(撰写的特征工程和选择:预测模型的实用方法)。这本书描述了为建模准备原始数据作为特征工程的一般过程。
开发预测模型的过程包括许多阶段,除了建模算法,还有很多数据和特征方面的工作。这本书介绍了为建模寻找预测变量的最佳表示以及为改进模型性能寻找预测变量的最佳特征子集的技术。书籍的主语言是R,但即使 R 不是您的主要语言,也不影响对里面的核心技术方法的学习和应用。
第4本推荐书是 📘Python Feature Engineering Cookbook:超过 70 个用于创建、工程和转换特征以构建机器学习模型。
随书完整资料代码可在官方github获取
特征工程,是一个数据转换和创建特征的过程,对于机器学习模型构建的效果至关重要。这本书展开讲解了如何使用开源 Python 库来加速完成特征工程的过程。
本书讲解的内容:首先解决基本数据问题,例如缺失数据和分类值,然后再介绍处理偏态分布和异常值的策略,最后讲解如何从各种类型的数据(包括文本、时间序列和关系数据库)中开发新特征。讲解众多开源 Python 库,帮助我们高效、可重现和优雅的方式实施每个特征工程方法。这本书覆盖特征工程所需的工具和专业知识,掌握后可以熟练地构建可部署到生产环境中的端到端和可重现的特征工程管道。
本书适用于机器学习和数据科学专业的学生和专业人员,以及从事机器学习模型部署的软件工程师,帮助他们了解更多有关如何转换数据和创建新功能以更好地训练机器学习模型的信息。
推荐的第5本书是 📘Feature Engineering for Machine Learning(机器学习中的特征工程)。
这本书详细讲解了将特征(原始数据的数字表示)提取和转换为机器学习模型格式的技术。每章都会以实际数据问题为例讲解,例如如何表示文本或图像数据。
作者 Alice Zheng 和 Amanda Casari 并没有简单地教授理论知识,而是通过贯穿全书的练习加强实战应用与落地。书籍最后一章通过使用多种特征工程技术处理真实世界的结构化数据集,将所有内容整合在一起。书籍的配套代码覆盖包括 NumPy、Pandas、Scikit-learn 和 Matplotlib 在内的 Python 工具包使用。
书籍覆盖如下内容主题:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。