前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何爬取知乎漂亮妹纸照片

如何爬取知乎漂亮妹纸照片

作者头像
HuangWeiAI
发布2019-10-14 17:39:18
9520
发布2019-10-14 17:39:18
举报
文章被收录于专栏:浊酒清味

爬取过程

1:

上知乎网站找到相关题目

我们第一步上知乎网站找到相关的问题,这个比较好找。比如:

然后我们需要把网址拷贝下来,比如我们把上面第一个问题的网址拷贝下来:

https://www.zhihu.com/question/26037846

注意只需要question后面对应的编号就行了。

2

用selenium获取网页文件

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE,Firefox,Safari,Google Chrome,Opera等。

这里,我们使用谷歌Chrome浏览器。我们需要下载chromedriver.zip然后解压到指定文件夹。

接下来就是代码操控Chrome浏览器并获得html文件。

3:

获得图片地址并下载

在获取html文件后我们需要用正则表达式匹配图片的地址,然后根据这个地址下载图片到本地。

爬取结果

我们选取一些比较好看的图片:

参考代码:

https://github.com/kunkun1230/Python_crawling/tree/master/爬取知乎妹纸图

修改:

(1)下载chromedriver.zip然后解压到指定文件夹

代码语言:javascript
复制
driver =  webdriver.Chrome(r"C:\Users\chromedriver.exe")

(2)正则表达式:

代码语言:javascript
复制
r=re.findall(r'data-actualsrc="([^"]+)"',str1)
r = list(set(r))

(3)建立output/rawfile文件夹

建立output/image文件夹

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与机器学习之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档