在之前的案例里面,我们学习了使用requests
、BeautifulSoup
库来爬取豆瓣读书的数据,今天我们要来学习一个新的工具:selenium
.
selenium
最初是一个自动化测试
工具,在爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。
#安装selenium库
pip install selenium
先考一下大家,我们打开一个网页的第一步是什么?
当然是先打开浏览器对不对,那么我们使用selenium
来打开浏览器时,还需要配合一个工具来进行,它就是浏览器驱动
。
在这里,墙裂建议大家使用谷歌浏览器(chrome)
,接下来我会示范一下,如何在Windows系统
下,安装谷歌浏览器对应的浏览器驱动!
谷歌浏览器
,点击浏览器右上角的三个点,再单击设置,如下图所示
关于Chrome
,如图所示,我的浏览器版本
就是:80.0.3987.162(正式版本) (32 位)
浏览器版本号
最接近的版本,点击进入下载,因为我的浏览器版本是32位的,所以驱动版本也选择32位的windows版本
chromedriver.exe
放到python
安装路径的scripts
目录中即可python
文件夹是在哪里,请安装如下图所示的方法进行操作:win + r
打开运行窗口,输入cmd
,然后点击确定进入命令行窗口
where python
,回车,如图所示:
explorer + python的路径
,如图所示,我这里的输入就是:explorer D:\python
(注意,后面的python.exe不需要输入
)
chromedriver.exe
放到python
安装路径的scripts
目录中即可
接下来,我们尝试一下打开微博网页:
# 从 selenium 中导入 webdriver(驱动)
from selenium import webdriver
import time
# 打开Chrome 浏览器
browser = webdriver.Chrome()
# 打开微博网页
browser.get('https://weibo.com')
#微博加载比较慢,我们给它设置20s的打开时间,然后关闭浏览器
time.sleep(20)
# 关闭浏览器
browser.quit()
接下来,我们要利用selenium自动登录微博,点此继续学习python3 爬虫学习:自动给你心上人的微博点赞(二)
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。