基本信息
出版社: 人民邮电出版社; 第1版 (2016年3月1日)
外文书名: Web Scraping with Python Collecting Date From The ModernWeb
丛书名: 图灵程序设计丛书
平装: 200页
语种: 简体中文
开本: 16
条形码: 9787115416292
商品尺寸: 22.4 x 16.8 x1.4 cm
商品重量: 340 g
品牌: 人民邮电出版社
ASIN: B01DU8CXJ4
目录
译者序 ix
前言 xi
第一部分创建爬虫
第 1章初见网络爬虫 2
1.1 网络连接2
1.2 BeautifulSoup简介4
1.2.1 安装BeautifulSoup5
1.2.2 运行BeautifulSoup7
1.2.3 可靠的网络连接8
第 2章复杂HTML解析 11
2.1 不是一直都要用锤子11
2.2 再端一碗BeautifulSoup12
2.2.1 BeautifulSoup的find()和findAll()13
2.2.2 其他BeautifulSoup对象 15
2.2.3 导航树16
2.3 正则表达式19
2.4 正则表达式和BeautifulSoup23
2.5 获取属性24
2.6 Lambda表达式24
2.7 超越BeautifulSoup25
第3 章开始采集 26
3.1 遍历单个域名26
3.2 采集整个网站30
3.3 通过互联网采集34
3.4 用Scrapy采集 38
第4 章使用API 42
4.1 API 概述43
4.2 API 通用规则43
4.2.1 方法44
4.2.2 验证44
4.3 服务器响应45
4.4 Echo Nest 46
4.5 Twitter API 48
4.5.1 开始48
4.5.2 几个示例50
4.6 Google API 52
4.6.1 开始52
4.6.2 几个示例53
4.7 解析JSON数据 55
4.8 回到主题56
4.9 再说一点API60
第5 章存储数据 61
5.1 媒体文件61
5.2 把数据存储到CSV64
5.3 MySQL 65
5.3.1 安装MySQL66
5.3.2 基本命令68
5.3.3 与Python整合 71
5.3.4 数据库技术与**佳实践 74
5.3.5 MySQL 里的“六度空间游戏” 75
5.4 Email 77
第6 章读取文档 80
6.1 文档编码80
6.2 纯文本81
6.3 CSV 85
6.4 PDF 87
6.5 微软Word和.docx 88
第二部分高级数据采集
第7 章数据清洗 94
7.1 编写代码清洗数据94
7.2 数据存储后再清洗98
第8 章自然语言处理 103
8.1 概括数据104
8.2 马尔可夫模型106
8.3 自然语言工具包112
8.3.1 安装与设置112
8.3.2 用NLTK做统计分析 113
8.3.3 用NLTK做词性分析 115
8.4 其他资源119
第9 章穿越网页表单与登录窗口进行采集 120
9.1 Python Requests 库120
9.2 提交一个基本表单121
9.3 单选按钮、复选框和其他输入123
9.4 提交文件和图像124
9.5 处理登录和cookie125
9.6 其他表单问题127
第 10 章采集JavaScript 128
10.1 JavaScript 简介128
10.2 Ajax 和动态HTML131
10.3 处理重定向137
第 11 章图像识别与文字处理 139
11.1 OCR 库概述140
11.1.1 Pillow 140
11.1.2 Tesseract 140
11.1.3 NumPy 141
11.2 处理格式规范的文字142
11.3 读取验证码与训练Tesseract146
11.4 获取验证码提交答案151
第 12 章避开采集陷阱 154
12.1 道德规范154
12.2 让网络机器人看起来像人类用户155
12.2.1 修改请求头155
12.2.2 处理cookie157
12.2.3 时间就是一切159
12.3 常见表单安全措施159
12.3.1 隐含输入字段值159
12.3.2 避免蜜罐160
12.4 问题检查表162
第 13 章用爬虫测试网站 164
13.1 测试简介164
13.2 Python 单元测试165
13.3 Selenium 单元测试168
13.4 Python 单元测试与Selenium单元测试的选择 172
第 14 章远程采集 174
14.1 为什么要用远程服务器174
14.1.1 避免IP地址被封杀 174
14.1.2 移植性与扩展性175
14.2 Tor 代理服务器176
14.3 远程主机177
14.3.1 从网站主机运行178
14.3.2 从云主机运行178
14.4 其他资源179
14.5 勇往直前180
附录A Python 简介 181
附录B 互联网简介 184
附录C 网络数据采集的法律与道德约束188
作者简介 200
封面介绍 200
https://pan.baidu.com/s/1tMn_48SFdEeK8YS-N_39PQ
领取专属 10元无门槛券
私享最新 技术干货