首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

好书推荐——《python网络数据采集》

基本信息

出版社: 人民邮电出版社; 第1版 (2016年3月1日)

外文书名: Web Scraping with Python Collecting Date From The ModernWeb

丛书名: 图灵程序设计丛书

平装: 200页

语种: 简体中文

开本: 16

条形码: 9787115416292

商品尺寸: 22.4 x 16.8 x1.4 cm

商品重量: 340 g

品牌: 人民邮电出版社

ASIN: B01DU8CXJ4

目录

译者序 ix

前言 xi

第一部分创建爬虫

第 1章初见网络爬虫 2

1.1 网络连接2

1.2 BeautifulSoup简介4

1.2.1 安装BeautifulSoup5

1.2.2 运行BeautifulSoup7

1.2.3 可靠的网络连接8

第 2章复杂HTML解析 11

2.1 不是一直都要用锤子11

2.2 再端一碗BeautifulSoup12

2.2.1 BeautifulSoup的find()和findAll()13

2.2.2 其他BeautifulSoup对象 15

2.2.3 导航树16

2.3 正则表达式19

2.4 正则表达式和BeautifulSoup23

2.5 获取属性24

2.6 Lambda表达式24

2.7 超越BeautifulSoup25

第3 章开始采集 26

3.1 遍历单个域名26

3.2 采集整个网站30

3.3 通过互联网采集34

3.4 用Scrapy采集 38

第4 章使用API 42

4.1 API 概述43

4.2 API 通用规则43

4.2.1 方法44

4.2.2 验证44

4.3 服务器响应45

4.4 Echo Nest 46

4.5 Twitter API 48

4.5.1 开始48

4.5.2 几个示例50

4.6 Google API 52

4.6.1 开始52

4.6.2 几个示例53

4.7 解析JSON数据 55

4.8 回到主题56

4.9 再说一点API60

第5 章存储数据 61

5.1 媒体文件61

5.2 把数据存储到CSV64

5.3 MySQL 65

5.3.1 安装MySQL66

5.3.2 基本命令68

5.3.3 与Python整合 71

5.3.4 数据库技术与**佳实践 74

5.3.5 MySQL 里的“六度空间游戏” 75

5.4 Email 77

第6 章读取文档 80

6.1 文档编码80

6.2 纯文本81

6.3 CSV 85

6.4 PDF 87

6.5 微软Word和.docx 88

第二部分高级数据采集

第7 章数据清洗 94

7.1 编写代码清洗数据94

7.2 数据存储后再清洗98

第8 章自然语言处理 103

8.1 概括数据104

8.2 马尔可夫模型106

8.3 自然语言工具包112

8.3.1 安装与设置112

8.3.2 用NLTK做统计分析 113

8.3.3 用NLTK做词性分析 115

8.4 其他资源119

第9 章穿越网页表单与登录窗口进行采集 120

9.1 Python Requests 库120

9.2 提交一个基本表单121

9.3 单选按钮、复选框和其他输入123

9.4 提交文件和图像124

9.5 处理登录和cookie125

9.6 其他表单问题127

第 10 章采集JavaScript 128

10.1 JavaScript 简介128

10.2 Ajax 和动态HTML131

10.3 处理重定向137

第 11 章图像识别与文字处理 139

11.1 OCR 库概述140

11.1.1 Pillow 140

11.1.2 Tesseract 140

11.1.3 NumPy 141

11.2 处理格式规范的文字142

11.3 读取验证码与训练Tesseract146

11.4 获取验证码提交答案151

第 12 章避开采集陷阱 154

12.1 道德规范154

12.2 让网络机器人看起来像人类用户155

12.2.1 修改请求头155

12.2.2 处理cookie157

12.2.3 时间就是一切159

12.3 常见表单安全措施159

12.3.1 隐含输入字段值159

12.3.2 避免蜜罐160

12.4 问题检查表162

第 13 章用爬虫测试网站 164

13.1 测试简介164

13.2 Python 单元测试165

13.3 Selenium 单元测试168

13.4 Python 单元测试与Selenium单元测试的选择 172

第 14 章远程采集 174

14.1 为什么要用远程服务器174

14.1.1 避免IP地址被封杀 174

14.1.2 移植性与扩展性175

14.2 Tor 代理服务器176

14.3 远程主机177

14.3.1 从网站主机运行178

14.3.2 从云主机运行178

14.4 其他资源179

14.5 勇往直前180

附录A Python 简介 181

附录B 互联网简介 184

附录C 网络数据采集的法律与道德约束188

作者简介 200

封面介绍 200

https://pan.baidu.com/s/1tMn_48SFdEeK8YS-N_39PQ

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180331G06OPW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券