我一直在使用java.net crawler进行定制的爬虫。问题出在动态生成的内容上,比如博客上的评论。考虑下面的页面http://www.avc.com/a_vc/2010/09/contrarian-investing.html。如果爬行页面并获取源代码,则无法查看页面的全部内容。我需要内容的原因是因为我正在执行一些关键字密度计算。因此,我需要我的应用程序能够准确地看到浏览器将看到的内容。有什么建议吗?
我已经看过apache的httpclient,然而,这与上面的爬虫程序一样,只是返回源代码。我认为这个特定的页面有一个javascript片段,它返回来自另一个域的评论,所以我想我需要的是在下载它之后解析源代码,然后获得文本。任何帮助都是非常感谢的。
谢谢
相同的
发布于 2010-09-13 06:13:23
Web测试API中包含JS支持。我认为HTTPUnit有一定的能力在Rhino上执行Javascript。虽然我已经有一段时间没有使用它了,但我似乎记得它不是很好用。或者,您可以尝试Selenium RC,我认为它对于这类事情是非常强大的,但同样,不确定它是否专门解决了您的问题。
Selenium - http://seleniumhq.org/projects/remote-control/ HTTPUnit - http://httpunit.sourceforge.net/
发布于 2010-09-13 23:23:29
尝试使用现有的javascript引擎(谷歌的V8或mozilla的Rhino ),并在执行时间超时。但这可能是非常困难的。尝试检测javascript文本中的请求url并使用crawler请求它可能更容易。
发布于 2015-01-22 18:02:33
Crawljax是一个免费的开源网络爬虫,用于自动抓取和分析动态的基于Ajax的web applications.An,后台功能是抓取动态网站。请参阅网址https://github.com/crawljax/crawljax。但它只是个测试工具。
https://stackoverflow.com/questions/3696828
复制相似问题