爬取过程
1:
上知乎网站找到相关题目
我们第一步上知乎网站找到相关的问题,这个比较好找。比如:
然后我们需要把网址拷贝下来,比如我们把上面第一个问题的网址拷贝下来:
https://www.zhihu.com/question/26037846
注意只需要question后面对应的编号就行了。
2
用selenium获取网页文件
Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE,Firefox,Safari,Google Chrome,Opera等。
这里,我们使用谷歌Chrome浏览器。我们需要下载chromedriver.zip然后解压到指定文件夹。
接下来就是代码操控Chrome浏览器并获得html文件。
3:
获得图片地址并下载
在获取html文件后我们需要用正则表达式匹配图片的地址,然后根据这个地址下载图片到本地。
爬取结果
我们选取一些比较好看的图片:
参考代码:
https://github.com/kunkun1230/Python_crawling/tree/master/爬取知乎妹纸图
修改:
(1)下载chromedriver.zip然后解压到指定文件夹
driver = webdriver.Chrome(r"C:\Users\chromedriver.exe")
(2)正则表达式:
r=re.findall(r'data-actualsrc="([^"]+)"',str1)
r = list(set(r))
(3)建立output/rawfile文件夹
建立output/image文件夹
本文分享自 Python与机器学习之路 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!