文章/答案/技术大牛

发布

社区首页 >问答首页 >使用动态生成的内容爬行页面

问使用动态生成的内容爬行页面
EN

Stack Overflow用户

提问于 2010-09-13 05:56:49

回答 3查看 3.2K关注 0票数 1

我一直在使用java.net crawler进行定制的爬虫。问题出在动态生成的内容上，比如博客上的评论。考虑下面的页面http://www.avc.com/a_vc/2010/09/contrarian-investing.html。如果爬行页面并获取源代码，则无法查看页面的全部内容。我需要内容的原因是因为我正在执行一些关键字密度计算。因此，我需要我的应用程序能够准确地看到浏览器将看到的内容。有什么建议吗？

我已经看过apache的httpclient，然而，这与上面的爬虫程序一样，只是返回源代码。我认为这个特定的页面有一个javascript片段，它返回来自另一个域的评论，所以我想我需要的是在下载它之后解析源代码，然后获得文本。任何帮助都是非常感谢的。

谢谢

相同的

java

web-crawler

回答 3

Stack Overflow用户

发布于 2010-09-13 06:13:23

Web测试API中包含JS支持。我认为HTTPUnit有一定的能力在Rhino上执行Javascript。虽然我已经有一段时间没有使用它了，但我似乎记得它不是很好用。或者，您可以尝试Selenium RC，我认为它对于这类事情是非常强大的，但同样，不确定它是否专门解决了您的问题。

Selenium - http://seleniumhq.org/projects/remote-control/ HTTPUnit - http://httpunit.sourceforge.net/

票数 2

Stack Overflow用户

发布于 2010-09-13 23:23:29

尝试使用现有的javascript引擎(谷歌的V8或mozilla的Rhino )，并在执行时间超时。但这可能是非常困难的。尝试检测javascript文本中的请求url并使用crawler请求它可能更容易。

票数 0

Stack Overflow用户

发布于 2015-01-22 18:02:33

Crawljax是一个免费的开源网络爬虫，用于自动抓取和分析动态的基于Ajax的web applications.An，后台功能是抓取动态网站。请参阅网址https://github.com/crawljax/crawljax。但它只是个测试工具。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/3696828

复制

相似问题

问使用动态生成的内容爬行页面
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用动态生成的内容爬行页面EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用动态生成的内容爬行页面
EN