我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而,这里的问题是,我想要抓取的数据是基于XML加载的,所以当我试图从HTML解析它时,它会显示出来
<div id="report-details-container">
<!-- Container where HTML template will be loaded based on XML -->
</div>
而不是完整的HTML,它只显示这个注释。
我如何抓取数据,因为在inspect元素中我可以看到完整HTML。
我开始使用抓取网站内容和HTML代码。我想要一个Python代码,可以存储抓取的内容或HTML代码在当前/实时。然后,在特定的手动分配的时间间隔之后,代码应该再次执行,并抓取相同网站或网页的内容或HTML代码。然后,它应该比较两个抓取的数据,并显示发生的任何更改。我想要这个代码来监控网站上发生的变化,并报告它们。
到目前为止,我所做的是:
import requests
from bs4 import BeautifulSoup
url ="https://www.uetmardan.edu.pk/uetm/"
# Step1: Get the HTML content
目前,我正试图在整个网页中获取一些文本数据。一开始,我抓取所有的网页,然后慢慢地在网页中筛选,从每一页抓取我需要的数据。例如,由于动态ID的原因,我在抓取诸如平方英尺或邻居之类的项目时遇到了困难。我通过XPath或CSS选择器看到的许多例子都涉及到搜索文本,但在我试图抓取的每一页上都会发生变化。有什么办法能捕捉到这片土地或社区吗?
from bs4 import BeautifulSoup
from selenium import webdriver as wd
from selenium.common.exceptions import StaleElementReferenceExcep