分享一本入门人工智能的好书！

博文视点Broadview

发布于 2023-04-04 10:20:51

3090

发布于 2023-04-04 10:20:51

文章被收录于专栏：博文视点Broadview

👆点击“博文视点Broadview”，获取更多书讯

美国科技初创公司OpenAI旗下智能聊天工具ChatGPT持续在全球范围内掀起“人工智能”热潮。

ChatGPT受到关注的重要原因是引入新技术RLHF (Reinforcement Learning with Human Feedback，即基于人类反馈的强化学习)。

RLHF 解决了生成模型的一个核心问题，即如何让人工智能模型的产出和人类的常识、认知、需求、价值观保持一致。

ChatGPT是AIGC（AI- Generated Content，人工智能生成内容）技术进展的成果。该模型能够促进利用人工智能进行内容创作、提升内容生产效率与丰富度。

其实人工智能的实现，需要两套技术支持：

一是机器学习，是面向个体数据分析人员设计的一套算法，包括弱集成学习和强集成学习；
二是深度学习，适合团队或研究院开发的人工智能技术。

本文要和大家聊的这本新书《Python机器学习技术：模型关系管理》囊括了人工智能的几个主要领域——弱集成学习、强集成学习、自动化机器学习和深度学习的内容。

其中，弱集成学习和强集成学习主要以Python第三方库sklearn为实现工具，汇集了作者近十年项目实践的200多项经验总结，更加强调数据分析师个人的学习经验总结、学习路径规划、库及超参数的综合应用等内容。

而深度学习部分，由于存在复杂而陡峭的学习曲线，所以对一般的数据分析人员而言，逾越学习平滑期需要的时间太久，因此作者花费了大量篇幅用于阐述复杂的深度学习算法，使用最通俗的语言描述深度学习算法，这也是我见过的最通俗的深度学习算法教科书。

内容简介

本书共包括三个部分：机器学习概念与特征工程、机器学习技术、模型关系管理。

详细目录如下：

向上滑动阅览

第1 部分机器学习概念与特征工程

第1 章机器学习的基础概念 / 002

1.1 数据源 / 002

1.1.1 数值：单元格 / 002

1.1.2 图像：像素点 / 003

1.1.3 文本：词向量 / 004

1.2 模型的基本形式：回归 / 006

1.2.1 文氏图：方差分解 / 006

1.2.2 分布图：分布与随机 / 007

1.2.3 角色：监督与非监督 / 008

1.2.4 模型应用：归因与预测 / 008

1.3 模型与算法 / 013

1.3.1 模型进化：从1.0 到4.0 / 013

1.3.2 算法驱动：参数与超参数 / 014

1.4 SMD 学习技术 / 014

1.4.1 统计学习：线性回归 / 014

1.4.2 机器学习：支持向量机 / 015

1.4.3 深度学习：神经网络 / 016

1.5 机器学习误差源 / 018

1.5.1 误差源 / 018

1.5.2 偏差与方差窘境 / 019

1.6 模型拟合诊断 / 020

1.6.1 模型拟合 / 020

1.6.2 模型的评估指标 / 021

1.7 数据分区技术 / 024

1.7.1 数据分区：训练与评估 / 025

1.7.2 交叉验证：分区的升级 / 026

1.8 集成学习方法 / 028

1.8.1 强分类器：特征工程+模型 / 029

1.8.2 弱分类器：模型+模型 / 029

1.8.3 混合专家：神经网络 / 029

1.9 运算加速度 / 029

1.9.1 大数据挑战 / 030

1.9.2 数据的高效运算 / 030

第2 章特征工程技术 / 032

2.1 数据变换 / 032

2.1.1 特征规范化：对中处理 / 033

2.1.2 样本规范化：距离相似度 / 035

2.2 数据编码 / 036

2.2.1 独热编码：无序性 / 037

2.2.2 数据分箱：业务标签 / 038

2.3 缺失值填补 / 039

2.3.1 中位数填补：稳健 / 039

2.3.2 最近邻填补：高维 / 039

2.3.3 随机森林填补：“贤内助” / 041

2.4 异常值诊断 / 045

2.4.1 单变量异常值：描述 / 045

2.4.2 多变量异常值：监督 / 046

2.4.3 多变量异常值：非监督 / 046

2.4.4 非结构式异常值：自编码器 / 047

2.5 共线性的危害 / 053

2.5.1 双变量共线：新特征 / 053

2.5.2 多变量共线：特征分解 / 055

2.5.3 特征组合技术 / 058

2.6 特征筛选技术 / 059

2.6.1 经验：“站在谁的肩膀上” / 061

2.6.2 相关：相关系数 / 061

2.6.3 回归：特征筛选 / 061

2.6.4 降维：线性与非线性 / 062

2.6.5 工具：“指南针” / 065

2.7 聚类技术：市场细分 / 066

第2 部分机器学习技术

第3 章机器学习准备 / 069

3.1 机器学习的数学基础 / 069

3.1.1 微积分基础 / 069

3.1.2 向量运算：相关分析 / 072

3.1.3 矩阵运算：回归模型 / 074

3.1.4 张量运算：神经网络 / 076

3.2 机器学习理解 / 077

3.2.1 连续型因变量：线性回归 / 077

3.2.2 分类型因变量：逻辑回归 / 081

3.3 机器学习算法 / 083

3.3.1 最小二乘法：准确度 / 083

3.3.2 最大似然估计法：测量 / 083

3.3.3 随机梯度下降法：大数据 / 085

第4 章统计学：回归“进化” / 087

4.1 大数据与回归模型 / 087

4.1.1 统计学的烦恼 / 087

4.1.2 线性回归的进化 / 088

4.2 正则化约束 / 089

4.2.1 正则化技术的原理 / 089

4.2.2 LASSO 回归与岭回归 / 090

4.2.3 弹性网的特征 / 091

4.3 案例：随机梯度下降回归与归因解释 / 092

第5 章神经网络模型：预测 / 096

5.1 感知器模型 / 096

5.1.1 与或四门通往何方 / 096

5.1.2 感知器=线性回归 / 099

5.1.3 激活函数为何是非线性的 / 100

5.1.4 感知器=CPU / 102

5.2 神经网络模型 / 102

5.2.1 感知器集成：网络结构 / 102

5.2.2 前向传播技术：联立方程 / 105

5.2.3 反向传播技术：自动微分 / 107

5.2.4 网络结构设计：隐含层 / 110

5.2.5 神经网络专题1：特征工程 / 111

5.2.6 神经网络专题2：维度灾难 / 112

5.3 案例：数据分析流与神经网络 / 112

第6 章决策树：归因与可视化 / 122

6.1 决策树模型原理 / 122

6.1.1 熵与相关性 / 122

6.1.2 决策树概览 / 123

6.1.3 特征分叉运算 / 124

6.1.4 特征选择运算 / 125

6.1.5 决策树与剪枝 / 128

6.2 树模型的特征 / 128

6.3 两类归因：决策树与逻辑回归 / 130

6.3.1 树形图解释 / 130

6.3.2 S 形图解释 / 131

第7 章支持向量机：高维数据 / 135

7.1 支持向量机简介 / 135

7.1.1 超平面 / 135

7.1.2 点距超平面 / 137

7.2 线性支持向量机 / 138

7.2.1 硬间隔：严格边界 / 138

7.2.2 软间隔：松弛边界 / 138

7.3 非线性与核技巧 / 139

7.3.1 理解核技巧 / 139

7.3.2 核函数及其应用 / 140

7.3.3 支持向量机：经验汇总 / 141

7.4 支持向量机模型运算 / 142

7.5 案例：图像识别与预测分类 / 144

第8 章关联分析 / 148

8.1 数据源格式 / 148

8.1.1 标准数据格式 / 148

8.1.2 概念的层级性 / 149

8.2 关联规则与度量指标 / 150

8.2.1 关联规则度量 / 150

8.2.2 频繁项集 / 151

8.2.3 Apriori 算法 / 151

8.2.4 强关联规则 / 153

8.3 案例：商品关联过滤与营销推荐 / 154

第3 部分模型关系管理

第9 章集成学习方法：弱集成 / 160

9.1 集成学习：弱分类器 / 160

9.1.1 自抽样法 / 161

9.1.2 套袋法与随机森林 / 162

9.1.3 套袋法的运算 / 163

9.1.4 随机森林与特征工程 / 165

9.1.5 提升法与提升树 / 165

9.1.6 提升法的运算 / 167

9.1.7 XGBoost 的原理与应用 / 170

9.2 集成学习：聚合策略 / 173

9.2.1 简单投票法 / 174

9.2.2 堆叠法 / 175

9.2.3 理论判断法 / 176

9.2.4 元分析法 / 177

9.2.5 结构方程模型 / 178

第10 章多阶段模型管理：强集成 / 181

10.1 特征工程与模型集成 / 181

10.1.1 机器学习与模型关系管理 / 181

10.1.2 “主成分+”与“聚类+”模式 / 182

10.2 多阶段模型管理与案例解析 / 183

10.2.1 线性与非线性：决策树+回归 / 184

10.2.2 异常诊断一：异常评分+主次归因+规则归因 / 190

10.2.3 异常诊断二：异常规则+复杂归因 / 195

10.2.4 经验法：贝叶斯规则+回归 / 199

10.2.5 不平衡修正：平衡性抽样+模型集成 / 208

10.2.6 数据源：问卷+数据库 / 212

第11 章深度学习模型：混合专家 / 219

11.1 全连接神经网络：数值分析 / 220

11.1.1 全连接神经网络规则 / 220

11.1.2 梯度爆炸与梯度消失 / 221

11.1.3 全连接层：正则化 / 224

11.1.4 构建全连接神经网络 / 224

11.2 卷积神经网络：图像识别 / 225

11.2.1 卷积层：核运算 / 226

11.2.2 池化层：标准化 / 232

11.2.3 全连接层：信息传递 / 233

11.2.4 构建卷积神经网络 / 234

11.3 循环神经网络：自然语言处理 / 237

11.3.1 概率语言模型 / 237

11.3.2 循环神经网络 / 239

11.3.3 长短期记忆网络 / 241

11.3.4 构建循环神经网络 / 244

第12 章自动化机器学习 / 246

12.1 自动化与集成学习 / 246

12.1.1 自动化集成 / 246

12.1.2 TPOT 配置 / 247

12.1.3 案例：模型复杂度评估 / 248

12.2 数据分析流水线 / 251

12.2.1 数据分析流 / 252

12.2.2 模型失效周期 / 255

12.2.3 知识发现与模型 / 258

12.2.4 流水线技术准备 / 259

12.2.5 创建复杂流水线 / 261

12.3 超参数与高效运行 / 265

12.3.1 热启动 / 266

12.3.2 随机搜索 / 266

12.3.3 贝叶斯搜索 / 268

12.3.4 增量学习 / 269

总结与展望 / 272

特色亮点

以小数据为启程，重点阐述大数据技术的原理与流程
应用常用依赖包，编写简洁代码，实现数据分析
以集成学习为核心知识点，展开对相关知识的讨论
借助描述性案例讲解模型配置，借助项目案例讲解数据挖掘流程
以描述性挖掘、归因性探索、预测性应用并举的方式分析案例
行为中涉及的数学公式大多辅以图形理解，对数理知识的要求并不高

扫码了解本书详情

每日抽奖

奖品《齐俊杰看财经》

发布：刘恩惠
审核：陈歆懿 

如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连<  PAST · 往期回顾  >
畅销15年的Java经典，再次重磅升级！还送电子书！！！

点击阅读原文，查看本书详情！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-03-29，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习

本文分享自博文视点Broadview 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

分享一本入门人工智能的好书！

分享一本入门人工智能的好书！

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐