首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >可以解释JavaScript的网络爬虫

可以解释JavaScript的网络爬虫
EN

Stack Overflow用户
提问于 2010-04-20 03:11:19
回答 3查看 20.7K关注 0票数 18

我想写一个网络爬虫,可以解释JavaScript。基本上它是一个用Java或PHP编写的程序,它接受URL作为输入并输出DOM树,这与Firebug HTML窗口中的输出类似。最好的例子是Kayak.com,当你“查看源代码”时,你看不到浏览器上显示的结果DOM,但可以通过Firebug保存结果。

我该怎么做呢?有什么工具可以帮助我吗?

EN

回答 3

Stack Overflow用户

发布于 2011-10-17 16:46:25

Ruby的Capybara是一个集成测试库,但它也可以用来编写独立的网络爬虫。鉴于它使用了Selenium或headless WebKit等后端,它可以解释现成的javascript:

代码语言:javascript
复制
require 'capybara/dsl'
require 'capybara-webkit'

include Capybara::DSL
Capybara.current_driver = :webkit
Capybara.app_host = "http://www.google.com"
page.visit("/")
puts(page.html)
票数 6
EN

Stack Overflow用户

发布于 2010-04-21 16:53:09

你可以使用Mozilla的渲染引擎Gecko:

https://developer.mozilla.org/en/Gecko

票数 1
EN

Stack Overflow用户

发布于 2012-05-04 15:44:45

看看这里:http://snippets.scrapy.org/snippets/22/这是一个python屏幕抓取和web爬行框架,与web驱动程序一起使用,它可以打开页面,呈现所需的所有内容,并为您提供通过以下方式“捕获”页面中任何内容的可能性

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2670082

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档