我是个新手,刚开始学习网络抓取。通过使用xpath选择器,我试图获取该网页上的知识:https://seffaflik.epias.com.tr/transparency/uretim/planlama/kgup.xhtml
但重点是,每当您更改日期或powerplant名称时,URL都不会更改,因此当您获取响应时,您得到的总是相同和错误的答案。有没有办法找到正确的URL或任何与HTML标记等相关的内容?
发布于 2020-02-18 04:54:01
对于这样的抓取操作,您需要做的不仅仅是加载文档然后抓取内容。在用户定义了一组特定的参数并更新了表单之后,所讨论的文档依赖于JavaScript从其他资源加载新信息。
加载文档后,您需要定义搜索参数。您可以通过JavaScript注入或通过浏览器的控制台来完成此操作。例如,如果您试图定义第一个日期字段的值,则可以使用
document.querySelectorAll('#j_idt199 input')[1].value = "Some/New/Date";对要在搜索中定义的其他字段重复此过程,然后运行以下代码以编程方式执行搜索:
document.querySelector('#j_idt199 button').click();在此之后,您可以使用普通的JS查询选择器获取所需的信息,也可以实现像artoo.js这样的抓取库来帮助您解释数据并将其导出。
https://stackoverflow.com/questions/60269855
复制相似问题