点击上方“Python与算法社区”,选择“星标”公众号
由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》(国内译作《精通特征工程》)一书,可以说是特征工程的宝典,本文在知名开源apachecn组织翻译的英文版基础上,将原文修改成jupyter notebook格式,并增加和修改了部分代码,测试全部通过。这个资料可以说是特征工程的宝典,值得推荐。
资料说明
《Feature Engineering for Machine Learning》由知名开源apachecn组织翻译,原版英文书可以在网上试读(免费读10天),试读地址:
https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/
这本书可以说是特征工程的宝典,值得推荐。
本站在得到apachecn同意后,对翻译版本进行了润色和代码实现,将原文修改成jupyter notebook格式,并增加和修改了部分代码,测试全部通过,同时所有数据集已经放在百度云下载。
翻译代码放在数据科学的github仓库提供下载,仓库地址:
https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering
备注:本文的翻译版本与人民邮电出版社出版的《精通特征工程》有所不同,属于独立完成。
文件目录
内容简介
第 1 章从数字数据的基本特征工程开始:过滤,合并,缩放,日志转换和能量转换以及交互功能。
第 2 章和第 3 章深入探讨了自然文本的特征工程:bag-of-words,n-gram 和短语检测。
第 4 章将 tf-idf 作为特征缩放的例子,并讨论它的工作原理。
第 5 章讨论分类变量的高效编码技术,包括特征哈希和 bin-counting。
第 6 章中进行主成分分析,我们深入机器学习的领域。
第 7 章将 k-means 看作一种特征化技术,它说明了模型堆叠的有效理论。
第 8 章都是关于图像的,在特征提取方面比文本数据更具挑战性。在得出深度学习是最新图像特征提取技术的解释之前,我们着眼于两种手动特征提取技术 SIFT 和 HOG。
第 9 章中完成了一个端到端示例中的几种不同技术,为学术论文数据集创建了一个推荐器。
内容截图
总结
本文将《Feature Engineering for Machine Learning》修改成jupyter notebook格式,测试全部通过,并提供下载。
翻译代码的仓库地址:
https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering
参考
https://www.oreilly.com/library/view/feature-engineering-for/9781491953235/
https://github.com/alicezheng/feature-engineering-book https://github.com/apachecn/feature-engineering-for-ml-zh
本文分享自 程序员郭震zhenguo 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!