python+selenium爬虫从零整理二

上一期弄明白获取数据的原理以后,我们就可以尝试动手生产自动化的工具了

python+selenium开发环境的搭建

第一步需要准备的工具:

第二步安装和配置环境:

打开安装包安装python,安装时勾选自动添加环境变量,安装完以后打开运行(win+R),运行cmd,在命令提示符里输入python,如显示版本则说明python安装正常。

python3可以直接用pip命令安装模块和包,比python2好折腾多了!继续在命令提示符黑框里输入exit(),可以退出python,然后在命令提示符主界面里输入pip install selenium 即可自动安装selenium模块(同理可安装其它所需模块)。

由于开发者们为谷歌Chrome浏览器提供了chromedriver驱动,笔者建议用谷歌Chrome浏览器+Chromedriver来实现Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。

下载安装Chrome浏览器(目前最新版本是68),将相应的Chromedriver放到浏览器Application文件夹内(跟Chrome主程序同一目录),接下来还要将该目录添加到环境变量(右键我的电脑——属性——高级系统设置——环境变量——编辑系统变量里的Path——新建并输入该目录位置)。

安装Chrome浏览器插件Xpath Helper,从Chrome网上应用商店安装或者下载好后直接拖进Chrome浏览器里。该插件可以帮助我们查看每个页面元素的XPath路径(用来给元素定位,后面会讲到具体用法)。

解压下载好的绿色中文版Sublime,就可以直接打开敲代码了。注意新建文件后,点右下角纯文本格式选择Python,就可以看到代码能按照Python的语法规则高亮变色。

该版本的Sublime可以直接编译运行(快捷键Ctrl+B)当前的代码,原版的话建议参考:

配置教程

。其它常用的几个快捷键有保存(Ctrl+S)、选中几行一起向右缩进(Tab)、选中几行一起向左缩进(Shift+Tab)、连续撤销(Ctrl+Z)。

剩下的工作就是敲代码实现自己的想法,作者自学的方式是先把项目分解成一个个小的功能,然后查找每一个功能的实现方法,网上大牛的教程可能会给出很多种方法,比如说selenium的三种等待方式,建议每一种都动手试一下,这样才能明白用哪一种方式简便又有效,而且后期遇到bug也容易明白问题会出在哪。最后把这些功能按照逻辑顺序拼起来,完成整个系统并没有想象得那么难。

postscript:搜索资料的途径除了百度、谷歌以外,还可以尝试搜狗或者微信自带的微信搜索,相关的微信公众号都是很棒的学习资源。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180824G1X3F900?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券