我有一个爬虫的基本结构。现在我在一些php驱动的网站上发布了它,它就像一个护身符。不过,现在我想让它从ajax内容构建数据表。
目前,我正在使用Mechanize for PYTHON和perl来构建我的爬虫。虽然机械化模块不执行AJAX。如何访问由异步ajax构建的内容?
我知道有一种叫做Selenium的东西,一种真正的自动化浏览器。但这是我唯一的选择吗?
发布于 2012-01-26 03:01:41
你可以运行一个无头浏览器,例如理解JavaScript、DOM等的phantomjs,但你必须用Javascript编写代码,好处是你可以做任何你想做的事情。
还有另一种方法,但它的messy。
当你点击按钮(使用Firefox中的Firebug或Chrome中的开发者工具)时,你可以观察到发出了什么请求。然后,尝试对页面后面运行的javascript进行反向工程,并尝试使用python代码执行类似的操作,请看一下Spidermonkey
https://stackoverflow.com/questions/9008534
复制相似问题