我正在尝试从一个网站上抓取一些信息,但是输出结果与网页的html不同。我试图从网页中获取的内容在
<div class="page-content">但在我的漂亮的shows对象中,它显示为:
<div class="page-content loading"></div>在组织中什么都没有。我试着去找我想要的东西,但是一无所获。我还尝试了html5lib和lxml解析器,但这并没有改变输出。是不是浏览器运行了某种javascript代码,使我无法获取完整的网页html或其他内容?我是新手,所以任何建议都将不胜感激。
下面是我的脚本:
URL = 'https://zone4.ca/race/2020-11-08/c91ec8f6/results'
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')
results = soup.find_all("div", class_="racer-row")
print(results)
print(soup)发布于 2021-03-14 00:43:17
是的,它肯定是通过javascript查询加载内容的。您可以复制这些查询的内容(标头、有效负载...)并通过requests库手动发送它们,或者(最好是imo)使用浏览器模拟驱动程序(如selenium )来抓取动态页面。
https://stackoverflow.com/questions/66615780
复制相似问题