首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用动态生成的内容爬行页面

使用动态生成的内容爬行页面
EN

Stack Overflow用户
提问于 2010-09-13 05:56:49
回答 3查看 3.2K关注 0票数 1

我一直在使用java.net crawler进行定制的爬虫。问题出在动态生成的内容上,比如博客上的评论。考虑下面的页面http://www.avc.com/a_vc/2010/09/contrarian-investing.html。如果爬行页面并获取源代码,则无法查看页面的全部内容。我需要内容的原因是因为我正在执行一些关键字密度计算。因此,我需要我的应用程序能够准确地看到浏览器将看到的内容。有什么建议吗?

我已经看过apache的httpclient,然而,这与上面的爬虫程序一样,只是返回源代码。我认为这个特定的页面有一个javascript片段,它返回来自另一个域的评论,所以我想我需要的是在下载它之后解析源代码,然后获得文本。任何帮助都是非常感谢的。

谢谢

相同的

EN

回答 3

Stack Overflow用户

发布于 2010-09-13 06:13:23

Web测试API中包含JS支持。我认为HTTPUnit有一定的能力在Rhino上执行Javascript。虽然我已经有一段时间没有使用它了,但我似乎记得它不是很好用。或者,您可以尝试Selenium RC,我认为它对于这类事情是非常强大的,但同样,不确定它是否专门解决了您的问题。

Selenium - http://seleniumhq.org/projects/remote-control/ HTTPUnit - http://httpunit.sourceforge.net/

票数 2
EN

Stack Overflow用户

发布于 2010-09-13 23:23:29

尝试使用现有的javascript引擎(谷歌的V8或mozilla的Rhino ),并在执行时间超时。但这可能是非常困难的。尝试检测javascript文本中的请求url并使用crawler请求它可能更容易。

票数 0
EN

Stack Overflow用户

发布于 2015-01-22 18:02:33

Crawljax是一个免费的开源网络爬虫,用于自动抓取和分析动态的基于Ajax的web applications.An,后台功能是抓取动态网站。请参阅网址https://github.com/crawljax/crawljax。但它只是个测试工具。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3696828

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档