前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python3_phantomJS_test

python3_phantomJS_test

作者头像
机器学习和大数据挖掘
发布2019-07-02 09:36:14
4920
发布2019-07-02 09:36:14
举报
文章被收录于专栏:数据挖掘数据挖掘

phantomJS和selenium差不多,几乎不相上下,使用会麻烦一点,但是比selenium快很多:

代码语言:javascript
复制
# !/usr/bin/python3.4
# -*- coding: utf-8 -*-

from selenium import webdriver

# 下载phantomjs:http://phantomjs.org/download.html

# driver = webdriver.PhantomJS()
# driver.get("https://www.baidu.com/")
# data = driver.title
# print(data)


from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

# 建立一个字典
dcap = dict(DesiredCapabilities.PHANTOMJS)

# 5秒超时
dcap["phantomjs.page.settings.resourceTimeout"] = 5000
# 无图模式
dcap["phantomjs.page.settings.loadImages"] = False
# 头部
dcap[
    "phantomjs.page.settings.userAgent"] = "Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5"
dcap["phantomjs.page.settings.referer"] = "https://www.baidu.com/"

# 将设置加载到浏览器
browser = webdriver.PhantomJS(executable_path='C:/Python34/Scripts/phantomjs', desired_capabilities=dcap)

# 打开网址
browser.get("https://www.baidu.com/")

# 查看phantom的详细参数
cap_dict = browser.desired_capabilities
for key in cap_dict:
    print('%s: %s' % (key, cap_dict[key]))

# 打印网址
print(browser.current_url)

# 加载后的页面
html = browser.page_source
# 这里可以用BS4或者xpath解析
# phantom自带的xpath和selenium一样:browser.find_element_by_xpath('//ul[@class="products"]/a')
print(html)

# 关闭虚假浏览器
browser.quit()
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016-11-29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档