问PhantomJS返回空网页(python、Selenium)
EN

Stack Overflow用户

提问于 2015-04-06 07:54:32

回答 2查看 16K关注 0票数 18

尝试屏幕抓取网站，而不必在python脚本中启动实际的浏览器实例(使用Selenium)。我可以用Chrome或火狐浏览器来做这件事--我已经试过了，而且还行得通--但我想用PhantomJS，这样它就没什么用了。

代码如下所示：

import sys
import traceback
import time

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = (
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/53 "
    "(KHTML, like Gecko) Chrome/15.0.87"
)

try:
    # Choose our browser
    browser = webdriver.PhantomJS(desired_capabilities=dcap)
    #browser = webdriver.PhantomJS()
    #browser = webdriver.Firefox()
    #browser = webdriver.Chrome(executable_path="/usr/local/bin/chromedriver")

    # Go to the login page
    browser.get("https://www.whatever.com")

    # For debug, see what we got back
    html_source = browser.page_source
    with open('out.html', 'w') as f:
        f.write(html_source)

    # PROCESS THE PAGE (code removed)

except Exception, e:
    browser.save_screenshot('screenshot.png')
    traceback.print_exc(file=sys.stdout)

finally:
    browser.close()

输出结果仅仅是：

<html><head></head><body></body></html>

但当我使用Chrome或Firefox选项时，它工作得很好。我想也许网站会根据用户代理返回垃圾信息，所以我试着假装了一下。没什么区别。

我遗漏了什么？

更新:我将尝试保持以下代码片段的更新，直到它工作为止。下面是我目前正在尝试的。

import sys
import traceback
import time
import re

from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.support import expected_conditions as EC

dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = (
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/53 (KHTML, like Gecko) Chrome/15.0.87")

try:
    # Set up our browser
    browser = webdriver.PhantomJS(desired_capabilities=dcap, service_args=['--ignore-ssl-errors=true'])
    #browser = webdriver.Chrome(executable_path="/usr/local/bin/chromedriver")

    # Go to the login page
    print "getting web page..."
    browser.get("https://www.website.com")

    # Need to wait for the page to load
    timeout = 10
    print "waiting %s seconds..." % timeout
    wait = WebDriverWait(browser, timeout)
    element = wait.until(EC.element_to_be_clickable((By.ID,'the_id')))
    print "done waiting. Response:"

    # Rest of code snipped. Fails as "wait" above.

python

selenium

selenium-webdriver

phantomjs

回答 2

Stack Overflow用户

发布于 2016-03-22 23:59:00

我也面临着同样的问题，没有多少代码让司机等待是有帮助的。

问题是https网站上的SSL加密，忽略它们将会起到作用。

按如下方式调用PhantomJS驱动程序：

driver = webdriver.PhantomJS(service_args=['--ignore-ssl-errors=true', '--ssl-protocol=TLSv1'])

这为我解决了这个问题。

票数 29

Stack Overflow用户

发布于 2018-10-11 21:56:08

驱动程序= webdriver.PhantomJS(service_args='--ignore-ssl-errors=true'，‘--ssl协议=TLSv1’)

这对我很有效

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29463603

复制

相似问题

问PhantomJS返回空网页(python、Selenium)
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PhantomJS返回空网页(python、Selenium)EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PhantomJS返回空网页(python、Selenium)
EN