我试图用Python抓取一些网页,我无法管理它。
网页使用Javascript加载,因此我无法使用“请求”或urllib。我尝试安装Selenium,但我没有安装Chrome webdriver(也许是因为我有64位Win?)。
我也试过使用Ghost,但我遇到了一些导入问题。
我还可以使用哪些其他选项?或者也许我可以在没有webdriver的情况下使用Selenium?
发布于 2018-09-18 14:20:01
您可以选择安装Chrome webdriver,它在win64(win 7,win 10)上运行完美,甚至可以在无头模式下运行Chrome浏览器。我建议安装Anaconda64 for windows。然后从http://chromedriver.chromium.org/downloads下载最新版本的win32,解压zip,将.exe文件放在好位置,确保你已经更新了Chrome浏览器并安装了selenium
pip install --upgrade selenium
或者,如果你安装了Anaconda / Miniconda:
conda install selenium
你可以使用这样的东西:
from selenium import webdriver
path_to_chromedriver = 'c:/webdrivers/chrome/chromedriver.exe'
def get_chromedriver(implicitly_wait=140, headless=True):
if headless:
options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument("--window-size=1920,1080")
driver = webdriver.Chrome(executable_path=path_to_chromedriver, chrome_options=options)
else:
driver = webdriver.Chrome(executable_path=path_to_chromedriver)
driver.implicitly_wait(implicitly_wait)
driver.maximize_window()
return driver
browser = get_chromedriver(30, headless=False)
headless =当你开始这样的事情时,真的很糟糕:
from selenium.webdriver.common.alert import Alert
PS:你也可以用scrapy-splash进行scrapy但是它会更难,所有那些产量的收益......
https://stackoverflow.com/questions/-100002668
复制相似问题