我使用连接并加载一个页面,只需使用以下代码。
final WebClient webClient = new WebClient(BrowserVersion.CHROME);
final HtmlPage page = webClient.getPage("http://htmlunit.sourceforge.net");
当getPage方法完成时,HTMLUnit也完成解析页面(html、javascript等)。
如何计算页面下载时间?我需要一个指示或事件,页面下载已经完成,HTMLUnit开始解析下载的页面内容。
我试图使用最新的docSearch版本(2.37.0)访问网页的HTMLUnit表单。正如您可以看到的,使用Firefox的DOM检查器,有这样一个形式
WebClient webClient = new WebClient();
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.setRefreshHandler(new RefreshHandler() {
public void hand
我正在使用Java中的HTMLUnit连接到远程URL,并从获得的网页中获取一些信息。
我使用以下代码:
final WebClient webClient = new WebClient(BrowserVersion.INTERNET_EXPLORER_6_0, "companyproxy.server", 8080);
final DefaultCredentialsProvider scp = new DefaultCredentialsProvider();
scp.addProxyCredentials("username", "passwor
我正在抓取与Cloudflare安全的网站,有时会得到一个错误,因为重定向到页面与ReCapcha,页面甚至无法加载,因为一些javascript错误。代码在#getPage方法上失败了,我不知道为什么。
下面的代码在普通页面上运行良好,但在确认页面上失败:
final WebClient webClient = new WebClient(BrowserVersion.CHROME);
webClient.getOptions().setJavaScriptEnabled(true);
final HtmlPage page = webClient.getPage("
我正在使用HtmlUnit 2.9 (本月发布的稳定版本)。你知道为什么下面的代码不能工作吗?
public class Main {
public static void main(String[] args) {
WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);
webClient.setCssEnabled(true);
webClient.setCssErrorHandler(new SilentCssErrorHandler());
我目前正在尝试用HTMLunit做一个网页抓取程序。然而,当我运行它时,我收到了这个错误 Exception in thread "main" com.gargoylesoftware.htmlunit.ObjectInstantiationException: unable to create HTML parser
at com.gargoylesoftware.htmlunit.html.HTMLParser$HtmlUnitDOMBuilder.<init>(HTMLParser.java:418)
at com.gargoylesoftw
我尝试使用HTMLUnit来获取网页上的javascript元素(),但它只加载html数据。如何让它显示javascript容器中显示的信息?
谢谢!
我当前的代码:
public String DownloadPage(String str){
final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);
webClient.getOptions().setTimeout(20000);
webClient.getOptions().setJavaScriptEnabled(t