我正在建立一个网络抓取项目使用python与美丽的汤和请求模块,问题是我想要抓取的网站有一个加载页面(完全不同于主页),然后它将我重定向到主页。我怎么能等到页面加载完成,然后从主页上抓取数据呢?我知道Selenium可以处理这些类型的网站,但网站必须使用web驱动程序启动,这是我不希望在我的项目中使用的原因,这就是为什么我使用Beautiful Soup和requests模块。到目前为止,我的代码如下。
from bs4 import BeautifulSoup
import requests
import time
source = requests.get(url).text
print(source)
我刚刚开始我的项目,到目前为止,这就是我写的所有代码。为此,我对更改模块持开放态度。
发布于 2020-10-25 22:08:18
如果您不希望在使用selenium时启动浏览器,可以使用以下代码。
from selenium import webdriver
options = webdriver.ChromeOptions()
options.headless = True
driver = webdriver.Chrome(options=options)
driver.get('https://www.google.com/')
print(driver.title)
我已经把chrome驱动放到了我电脑的环境变量path中。如果您没有将web驱动程序放入路径中,请将驱动程序变量更改为
driver = webdriver.Chrome(executable_path='your web driver path', options=options)
我知道selenium可以处理加载页面的网站,这应该可以解决我的问题
https://stackoverflow.com/questions/64524171
复制相似问题