爬虫实战:爬取当当网所有 Python 书籍

本文主要讲解如何利用urllib、re、BeautifulSoup 这几个库去实战,爬取当当网所有 Python 书籍。

1 确定爬取目标

任何网站皆可爬取,就看你要不要爬取而已。本次选取的爬取目标是当当网,爬取内容是 以 Python 为关键字搜索出来的页面中所有书籍的信息。具体如下图所示:

本次爬取结果有三项:

  • 图书的封面图片
  • 图书的书名
  • 图书的链接页面

最后把这三项内容保存到 csv 文件中。

2 爬取过程

总所周知,每个站点的页面 DOM 树是不一样的。所以我们需要先对爬取页面进行分析,再确定自己要获取的内容,再定义程序爬取内容的规则。

2.1 确定 URL 地址

我们可以通过利用浏览器来确定URL 地址,为 urllib 发起请求提供入口地址。接下来,我们就一步步来确定请求地址。 搜索结果页面为 1 时,URL 地址如下:

搜索结果页面为 3 时,URL 地址如下:

搜索结果页面为 21 时,即最后一页,URL 地址如下:

从上面的图片中,我们发现 URL 地址的差异就在于 page_index 的值,所以 URL 地址最终为

http://search.dangdang.com/?key=python&act=input&show=big&page_index=

而 page_index 的值,我们可以通过循环依次在地址后面添加。因此, urllib 请求代码可以这样写:

def main():
 # 爬取地址, 当当所有 Python 的书籍, 一共是 21 页
    url = "http://search.dangdang.com/?key=python&act=input&show=big&page_index="
 # 请求头
    headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
    }

 # 代理, 如果在需要代理就加上这行代码
 # proxy_handler = urllib.request.ProxyHandler({
 #
 # })
 # opener = urllib.request.build_opener(proxy_handler)
 # urllib.request.install_opener(opener)

    index = 1
 while index <= 21:
 # 发起请求
        request = urllib.request.Request(url=url+str(index), headers=headers)
        response = urllib.request.urlopen(request)
        index = index + 1
 # 解析爬取内容
        parseContent(response)
        time.sleep(1)  # 休眠1秒

    showResult()

2.2 确定爬取节点

有了 URL 地址,就能使用 urllib 获取到页面的 html 内容。到了这步,我们就需要找到爬取的节点的规则,以便于 BeautifulSoup 地解析。为了搞定这个问题,就要祭出大招 —— Chrome 浏览器的开发者功能(按下 F12 键就能启动)。我们按下 F12 键盘,依次对每本书进行元素检查(在页面使用鼠标右键,点击“检查”即可),具体结果如下:

从上图可以得知解析规则:每本书的节点是一个 a 标签,a 标签具有 title,href,子标签 img 的 src 三个属性,这三者分别对应书名、书的链接页面、书的封图。看到这里也需你不会小激动,感叹这不就是我们要感兴趣的内容吗?得到解析规则,编写BeautifulSoup 解析代码就有了思路,具体代码如下:

def parseContent(response):
 # 提取爬取内容中的 a 标签, 例如:
 # <a< span="">
 #     class="pic" dd_name="单品图片"
 #     ddclick="act=normalResult_picture&pos=23648843_53_2_q"
 #     href="http://product.dangdang.com/23648843.html"
 #     name="itemlist-picture"
 #     target="_blank" title="
 #     趣学Python――教孩子学编程 ">
 #
 #   <img< span="">
 #       alt=" 趣学Python――教孩子学编程 "
 #       data-original="http://img3x3.ddimg.cn/20/34/23648843-1_b_0.jpg"
 #       src="images/model/guan/url_none.png"/>
 # 
    soup = BeautifulSoup(response)
    temps = soup.find_all('a', class_='pic')
 global books
    books = books + temps
    print('get books size = ' + str(len(books)))

运行结果如下:

这证明刚才制定规则是正确爬取我们所需的内容。

2.3 保存爬取信息

我写爬虫程序有个习惯,就是每次都会爬取内容持久化到文件中。这样方便以后查看使用。如果爬取数据量比较大,我们可以用其做数据分析。我这里为了方便,就将数据保存到 csv 文件中。用 Python 将数据写到文件中,我们经常中文乱码问题所烦恼。如果单纯使用 csv 库,可能摆脱不了这烦恼。所以我们将 csv 和 codecs 结合一起使用。在写数据到 csv 文件的时候,我们可以通过指定文件编码。这样中文乱码问题就迎刃而解。具体代码如下:

def showResult():
    fileName = 'PythonBook.csv'

 # 指定编码为 utf-8, 避免写 csv 文件出现中文乱码
 with codecs.open(fileName, 'w','utf-8') as csvfile:
        filednames = ['书名', '页面地址', '图片地址']
        writer = csv.DictWriter(csvfile, fieldnames=filednames)

        writer.writeheader()
 for book in books:
            print(book)
 # print(book.attrs)
 # 获取子节点
 # (book.children)[0]
 if len(list(book.children)[0].attrs) == 3:
                img = list(book.children)[0].attrs['data-original']
 else:
                img = list(book.children)[0].attrs['src']

 try:
                writer.writerow({'书名':book.attrs['title'], '页面地址':book.attrs['href'], '图片地址': img})
 except UnicodeEncodeError:
                print("编码错误, 该数据无法写到文件中, 直接忽略该数据")

    print('将数据写到 ' + fileName + '成功!')

看到这里,你可能会问为什么不把编码指定为 gb2312 呢,这样用 ecxel 打开就不会乱码了?原因是当书名全部为英文单词时,使用 gb2312 编码,writer.writerow()会出现编码错误的问题。

如果你要用 excel 打开 PythonBook.csv文件, 你则需多执行下面几步:

  • 1) 打开 Excel
  • 2) 执行“数据”->“自文本”
  • 3) 选择 CSV 文件,出现文本导入向导
  • 4) 选择“分隔符号”,下一步
  • 5) 勾选“逗号”,去掉“ Tab 键”,下一步,完成
  • 6)在“导入数据”对话框里,直接点确定

3 爬取结果

最后,我们将上面代码整合起来即可。爬取结果截下图:

4 写在最后

这次实战算是结束了,但是我们不能简单地满足,看下程序是否有优化的地方。我把该程序不足的地方写出来。

  • 该程序是单线程,没有使用多线程,执行效率不够高。
  • 没有应用面向对象编程思想,程序的可扩展性不高。
  • 没有使用随机 User-Agent 和 代理,容易被封 IP。

补充,如遇到保存文件乱码,可以尝试调整编码方式,即:

codecs.open(fileName, 'w','utf-8')调整为codecs.open(fileName, 'w')或者其它编码方式。

原文发布于微信公众号 - IT派(transfer_3255716726)

原文发表时间:2018-06-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信宝典

别人的电子书,你的电子书,都在bookdown

bookdown是著名R包作者谢益辉开发的,支持采用Rmarkdown (R代码可以运行)或普通markdown编写文档,然后编译成HTML, WORD, PD...

47411
来自专栏FreeBuf

如何让微信丢骰子永远只出“666”

每次宅寝室一起点外卖谁下去拿都是个大问题,小编寝室一般选择微信色子谁小谁去拿,但是小编运气不太好 总是输,所以寻思着能不能每次都让色子是6点,皇天不负有心人,果...

3938
来自专栏python学习之旅

Python网络爬虫笔记(五):下载、分析京东P20销售数据

1、      翻页的时候,谷歌F12的Network页签可以看到下面的请求。(这里的翻页指商品评价中1、2、3页等)

5127
来自专栏CDA数据分析师

如何用 Python 爬取天气预报

? 大家好,我是Victor 278,由于本人是做前端的,Python学来作知识扩充的,看到非常多的小伙伴高呼着想从0开始学爬虫,这里开始写定向爬虫从0开始,...

63910
来自专栏PHP在线

2018最新PHP学习路线整合

PHP是一种通用开源脚本语言。语法吸收了C语言、Java和Perl的特点,利于学习,使用广泛,主要适用于Web开发领域。

3225
来自专栏Golang语言社区

Go-简洁的并发

多核处理器越来越普及。有没有一种简单的办法,能够让我们写的软件释放多核的威力?是有的。随着Golang, Erlang, Scala等为并发设计的程序语言的兴起...

43612
来自专栏日常学python

爬虫实践: 获取百度贴吧内容

本次要爬的贴吧是<< 西部世界 >>,西部世界是我一直很喜欢的一部美剧,平时有空也会去看看吧友们都在聊些什么。所以这次选取这个吧来作为实验材料。

1582
来自专栏即时通讯技术

金蝶随手记团队分享:还在用JSON? Protobuf让数据传输更省更快(实战篇)

本文接上篇《金蝶随手记团队分享:还在用JSON? Protobuf让数据传输更省更快(原理篇)》,以iOS端的Objective-C代码为例,向您演示如何使用P...

862
来自专栏ytkah

微信公众平台开放JS-SDK(微信内网页开发工具包)

微信公众平台开放JS-SDK(微信内网页开发工具包),这次开放接口是质的飞跃,是对开发者和广大用户一个利好的消息。未来的公众号图文消息会更丰富多彩,准备脑洞大开...

3.1K6
来自专栏NetCore

一个让人遗忘的角落—Exception(三)

最近有点事,把这个系列给落下了,给大家道个歉,这里还要感谢我的老婆,谢谢她一直对我的支持:) 系列回顾: 1.一个被人遗忘的角落—Exception(一) 2...

2126

扫码关注云+社区

领取腾讯云代金券