这是我的代码。这是有效的,但当代码打印时,它会打印DDOS攻击网站,而不是加载之后的网站。我甚至尝试做一个time.sleep(5)
来帮助计时。
我怎么才能克服这一点。
import requests
from bs4 import BeautifulSoup
import time
url = 'https://www.psacard.com/cert/49628062'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:80.0) Gecko/20100101 Firefox/80.0'}
soup = BeautifulSoup(requests.get(url, headers=headers).content, 'html.parser')
for a in soup.select('div'):
print(a)
发布于 2021-01-15 04:52:42
如果网页的任何部分是动态呈现的,例如使用Javascript
,beautifulsoup
可能无法使用它。使用Selenium
进行抓取。
https://stackoverflow.com/questions/65726629
复制相似问题