我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而,这里的问题是,我想要抓取的数据是基于XML加载的,所以当我试图从HTML解析它时,它会显示出来
<div id="report-details-container">
<!-- Container where HTML template will be loaded based on XML -->
</div>
而不是完整的HTML,它只显示这个注释。
我如何抓取数据,因为在inspect元素中我可以看到完整HTML。
我开始使用抓取网站内容和HTML代码。我想要一个Python代码,可以存储抓取的内容或HTML代码在当前/实时。然后,在特定的手动分配的时间间隔之后,代码应该再次执行,并抓取相同网站或网页的内容或HTML代码。然后,它应该比较两个抓取的数据,并显示发生的任何更改。我想要这个代码来监控网站上发生的变化,并报告它们。
到目前为止,我所做的是:
import requests
from bs4 import BeautifulSoup
url ="https://www.uetmardan.edu.pk/uetm/"
# Step1: Get the HTML content
我目前正在抓取一个格式如下的页面: <div id="container>
<script>Script that cause iframe contents to load correctly</script>
<iframe>Contents of iFrame</iframe>
<script>More scripts</script>
</div> 我可以很容易地抓取页面,但这不会抓取iframe内容,所以我用以下命令切换了框架: driver.switch_to
我需要你们这些Pythonists拥护者的帮助:我正在抓取所有以"details.php?“开头的urls。来自,并忽略所有其他urls。
然后我需要将我刚刚抓取的每个url转换成一个绝对的url,这样我就可以逐个抓取它们。绝对urls开头为:?...
我尝试这样使用re.findall:
html = scraperwiki.scrape(url)
if html is not None:
endofurl = re.findall("details.php?(.*?)>", html)
这给了我一个列表,但是我被卡住了。有人能帮我吗?