一个实现批量抓取淘女郎写真图片的爬虫

淘女郎,也被很多人称作“网络模特”,就是专门给淘宝、天猫等线上商家拍摄图片的平面模特。

我们将用Python3和Selenium Webdriver抓取每一个美眉的个人主页内的写真图片,把每一个美眉的写真图片按照文件夹保存到本地。

先说一下网页爬取的一般步骤:

1.查看目标网站页面的源代码,找到需要爬取的内容 2.用正则或其他如xpath/bs4的工具获取爬取内容 3.写出完整的python代码,实现爬取过程

查看网站源码,火狐浏览器右键-查看源代码即可获取:

代码编写的关键步骤:

①需要用到的模块

②解析目标网页的 Html 源码 bsObj = BeautifulSoup(driver.page_source, parser)

③用正则表达式获取美女图片 imagesUrl = re.findall('\/\/gtd\.alicdn\.com\/sns_logo.*\.jpg',driver.page_source) ④解析出个人主页地址等信息 girlsUrl = bsObj.find_all("a",{"href":re.compile("\/\/.*\.htm\?(userId=)\d*")}) ⑤获取所有美女的图片url girlsHURL = [('http:' + i['href']) for i in girlsUrl] ⑥判断路径文件夹是否创建,如果未创建则创建文件夹保存图片

 def mkdir(path):    # 判断路径是否存在    isExists = os.path.exists(path)    # 判断结果    if not isExists:        # 如果不存在则创建目录        print("    [*]新建了文件夹", path)        # 创建目录操作函数        os.makedirs(path)    else:        # 如果目录存在则不创建,并提示目录已存在        print('    [+]文件夹', path, '已创建') if __name__ == '__main__':    if not os.path.exists(outputDir):        os.makedirs(outputDir)    main()

Python执行文件后抓取的效果如下图所示:

原文发布于微信公众号 - Python中文社区(python-china)

原文发表时间:2016-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏李蔚蓬的专栏

VMware Workstation14.1.3 & Ubuntu18.04从安装到实用的填坑之路

本机VMware Workstation环境是上学期安装的,拿的老师给的安装包,版本10.0.1。顺便装了个Ubuntu15.10。

1441
来自专栏小白安全

FEERBUF--Microsoft Office之DDE攻击

Microsoft Office可以说是使用最广泛的办公软件。然而就是因为这样,也使它成为了黑客的主要攻击目标之一,例如在网络安全对抗赛中红队会用它来窃取域哈...

3166
来自专栏java架构师

关于GET和POST请求

网上看了一篇关于这两种请求的区别,感觉和之前看到的不太一样。 大众版: 1. GET使用URL或Cookie传参。而POST将数据放在BODY中。 2. GET...

3387
来自专栏逸鹏说道

NET跨平台:在Ubuntu下搭建ASP.NET 5开发环境

0x00 写在前面的废话 年底这段时间实在太忙了,各种事情都凑在这个时候,没时间去学习自己感兴趣的东西,所以博客也好就没写了。最近工作上有个小功能要做成Web应...

2943
来自专栏拂晓风起

cocos2d-js 调试办法 断点调试 Android真机调试

1752
来自专栏Golang语言社区

Go语言-连接数据库SQLite、MySQL、Oracle - Mike_zh

本文目录 说明: go语言连接数据库不像Java那么方便,本文分别介绍了连接三种典型的数据库的驱动以及连接方法:小型,SQLite;中型,MySQL;大型,Or...

4576
来自专栏有趣的Python

程序员装机必备爆款软件推荐与配置(windows版)

做机也要做一只全能的机哦 值此新年来临之即,面对两百多个G的c盘。忍痛割爱将电脑系统重装,版本为(win10:1079)之后的所有电脑环境更新,专业软件安装均会...

4373
来自专栏FreeBuf

免费主题暗藏后门,波及WordPress等知名CMS系统

最近美国安全研究者爆料,针对CMS(内容管理系统)网站的数千种插件和主题被植入了名为CryptoPHP的后门,这可能导致大量的Web服务器被攻击者据为己有。 隐...

2466
来自专栏FreeBuf

XSS的原理分析与解剖:第三章(技巧篇)

作者 Black-Hole 0×01 前言: 关于前两节url: 第一章:http://www.freebuf.com/articles/web/40520....

1987
来自专栏何俊林

Android支付实践(三)之银联支付功能(客户端+服务端)

前言:由于支付宝和微信支付都须要提供这个那个的认证材料,对于个人开发者想尝试,确实有不少麻烦,今天介绍的银联支付,对于个人开发者,可以说是福音了。来自chent...

8358

扫码关注云+社区

领取腾讯云代金券