python＋selenium爬虫从零整理二

文章来源：企鹅号 - 调和

上一期弄明白获取数据的原理以后，我们就可以尝试动手生产自动化的工具了

python+selenium开发环境的搭建

第一步需要准备的工具：

第二步安装和配置环境：

打开安装包安装python，安装时勾选自动添加环境变量，安装完以后打开运行（win+R），运行cmd，在命令提示符里输入python，如显示版本则说明python安装正常。

python3可以直接用pip命令安装模块和包，比python2好折腾多了！继续在命令提示符黑框里输入exit()，可以退出python，然后在命令提示符主界面里输入pip install selenium 即可自动安装selenium模块（同理可安装其它所需模块）。

由于开发者们为谷歌Chrome浏览器提供了chromedriver驱动，笔者建议用谷歌Chrome浏览器+Chromedriver来实现Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。

下载安装Chrome浏览器（目前最新版本是68），将相应的Chromedriver放到浏览器Application文件夹内（跟Chrome主程序同一目录），接下来还要将该目录添加到环境变量（右键我的电脑——属性——高级系统设置——环境变量——编辑系统变量里的Path——新建并输入该目录位置）。

安装Chrome浏览器插件Xpath Helper，从Chrome网上应用商店安装或者下载好后直接拖进Chrome浏览器里。该插件可以帮助我们查看每个页面元素的XPath路径（用来给元素定位，后面会讲到具体用法）。

解压下载好的绿色中文版Sublime，就可以直接打开敲代码了。注意新建文件后，点右下角纯文本格式选择Python，就可以看到代码能按照Python的语法规则高亮变色。

该版本的Sublime可以直接编译运行（快捷键Ctrl+B）当前的代码，原版的话建议参考：

配置教程

。其它常用的几个快捷键有保存（Ctrl+S）、选中几行一起向右缩进（Tab）、选中几行一起向左缩进（Shift+Tab）、连续撤销（Ctrl+Z）。

剩下的工作就是敲代码实现自己的想法，作者自学的方式是先把项目分解成一个个小的功能，然后查找每一个功能的实现方法，网上大牛的教程可能会给出很多种方法，比如说selenium的三种等待方式，建议每一种都动手试一下，这样才能明白用哪一种方式简便又有效，而且后期遇到bug也容易明白问题会出在哪。最后把这些功能按照逻辑顺序拼起来，完成整个系统并没有想象得那么难。

postscript：搜索资料的途径除了百度、谷歌以外，还可以尝试搜狗或者微信自带的微信搜索，相关的微信公众号都是很棒的学习资源。

发表于: 2018-08-242018-08-24 23:42:23
原文链接：https://kuaibao.qq.com/s/20180824G1X3F900?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

python＋selenium爬虫从零整理二

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐