我想抓取一些动态加载其组件的网页。这个页面有一个onload脚本,在我的浏览器中输入URL 3-5秒后,我可以看到完整的页面。
问题是,当我调用br.open('URL')
时,响应是0秒的网页。在超文本标记语言(我想要的)和br.open('URL')
的结果之间有3-5秒的差异。
发布于 2012-01-12 18:30:05
使用mechanize处理一个包含丰富javascripts内容的网页并不容易,但根据不同的情况,有一些方法可以获得您想要的内容。
POST
或GET
数据进行编码的方法(引号为特殊字符等)。但实际上,上面的一些选项并不容易做到,在为这类项目使用机械化之前,您必须三思。
发布于 2012-01-12 18:11:49
你遇到的问题是网页是通过javascript引擎呈现在你的web浏览器中的。然而,mechanize本身并不具备执行javascript的能力,因此,无论你等待多久,你都不会得到你所遗漏的HTML。
有关如何抓取动态生成的内容的更多信息,请查看此question。
https://stackoverflow.com/questions/8833239
复制相似问题