我想写一个网络爬虫,可以解释JavaScript。基本上它是一个用Java或PHP编写的程序,它接受URL作为输入并输出DOM树,这与Firebug HTML窗口中的输出类似。最好的例子是Kayak.com,当你“查看源代码”时,你看不到浏览器上显示的结果DOM,但可以通过Firebug保存结果。
我该怎么做呢?有什么工具可以帮助我吗?
发布于 2011-10-17 16:46:25
Ruby的Capybara是一个集成测试库,但它也可以用来编写独立的网络爬虫。鉴于它使用了Selenium或headless WebKit等后端,它可以解释现成的javascript:
require 'capybara/dsl'
require 'capybara-webkit'
include Capybara::DSL
Capybara.current_driver = :webkit
Capybara.app_host = "http://www.google.com"
page.visit("/")
puts(page.html)
发布于 2010-04-21 16:53:09
你可以使用Mozilla的渲染引擎Gecko:
发布于 2012-05-04 15:44:45
看看这里:http://snippets.scrapy.org/snippets/22/这是一个python屏幕抓取和web爬行框架,与web驱动程序一起使用,它可以打开页面,呈现所需的所有内容,并为您提供通过以下方式“捕获”页面中任何内容的可能性
https://stackoverflow.com/questions/2670082
复制相似问题