问可以解释JavaScript的网络爬虫
EN

Stack Overflow用户

提问于 2010-04-20 03:11:19

回答 3查看 20.7K关注 0票数 18

我想写一个网络爬虫，可以解释JavaScript。基本上它是一个用Java或PHP编写的程序，它接受URL作为输入并输出DOM树，这与Firebug HTML窗口中的输出类似。最好的例子是Kayak.com，当你“查看源代码”时，你看不到浏览器上显示的结果DOM，但可以通过Firebug保存结果。

我该怎么做呢？有什么工具可以帮助我吗？

javascript

web-crawler

回答 3

Stack Overflow用户

发布于 2011-10-17 16:46:25

Ruby的Capybara是一个集成测试库，但它也可以用来编写独立的网络爬虫。鉴于它使用了Selenium或headless WebKit等后端，它可以解释现成的javascript：

require 'capybara/dsl'
require 'capybara-webkit'

include Capybara::DSL
Capybara.current_driver = :webkit
Capybara.app_host = "http://www.google.com"
page.visit("/")
puts(page.html)

票数 6

Stack Overflow用户

发布于 2010-04-21 16:53:09

你可以使用Mozilla的渲染引擎Gecko：

https://developer.mozilla.org/en/Gecko

票数 1

Stack Overflow用户

发布于 2012-05-04 15:44:45

看看这里：http://snippets.scrapy.org/snippets/22/这是一个python屏幕抓取和web爬行框架，与web驱动程序一起使用，它可以打开页面，呈现所需的所有内容，并为您提供通过以下方式“捕获”页面中任何内容的可能性

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2670082

复制

相似问题

问可以解释JavaScript的网络爬虫
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问可以解释JavaScript的网络爬虫EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问可以解释JavaScript的网络爬虫
EN