使用Htmlunit WebClient不能完全加载网页的动态内容_Chromedp包:如何使用chromedp获取动态加载内容的网页的更新HTML源代码 - 腾讯云开发者社区

java、web-scraping

我是Java新手，但我决定尝试让一个小项目成为现实。我正在尝试从一个网站上抓取一些网页，我的问题是，虽然我可以获得原始材料，但我无法将“检查元素”材料打印出来。我看过无数的视频，也在这里搜索过，但无论如何，我只能让一个程序打印出这个网页的原始材料。我正在尝试从一个表中获取信息，以便定价。该网页是"“。我的基本程序是： import java.io.IOException; import java.net.MalformedURLException; import java.util.List; import com.gargoylesoftware.htmlunit.*; impor

浏览 0提问于2018-01-08得票数 0

1回答

如何使用Java中的JSOUP获取DOM树中任意网页的动态内容

java、html、algorithm、dom、jsoup

在我的项目中，它解析HTML页面，然后使用DOM树进行不同的操作，就像比较两个URLS的模板一样。为此，我使用JSOUP。但是它不能在DOM树中加载动态内容。您能告诉我如何使用Java中的JSOUP加载动态内容吗?或者可以告诉我其他的方法吗？编辑1号如所示，它使用Java中的PhantomJS和Zombie.js进行工作。你能告诉我怎么做吗？编辑第2期我首先尝试使用Selenium获取动态页面，代码如下所示： public static void main(String[] args) throws IOException { // Selenium WebDriver d

浏览 3提问于2013-04-04得票数 2

3回答

如何从网页中抓取图片？

java、htmlunit

我使用htmlunit从网页中抓取图像。我是htmlunit的初学者。我编码了，但不知道如何获取图像。下面是我的代码。 import java.io.*; import java.net.URL; import com.gargoylesoftware.htmlunit.BrowserVersion; import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.HtmlPage; public class urlscrap { public static void

浏览 1提问于2012-04-11得票数 1

回答已采纳

2回答

从网页中抓取数据。爪哇，HTMLUnit

java、web-scraping、htmlunit

我正试着从网页上搜集一些信息。我的问题是我得到的回报不包含我想要的东西。如果我检查web的源代码，就会发现一个空部分。 <section id="player-controller"> </section> 但是，如果我检查我想要数据的元素，它们就会出现在该部分中。由于它是动态生成的，所以我尝试使用HTMLUnit，但仍然无法得到它。也许我看错了。有什么方法可以用HTMLUnit获取代码，还是应该使用不同的工具？解决了通过使用HTMLUnit并在打印页面之前让进程停止一段时间，我得到了打印缺少的内容 WebClient webclient =

浏览 6提问于2016-05-29得票数 1

回答已采纳

2回答

使用htmlunit抓取动态网页

javascript、ajax、web-crawler、htmlunit、infinite-scroll

我正在使用HtmlUnit从一个动态网页中抓取数据，它使用无限滚动来动态获取数据，就像facebook的新闻馈送一样。我使用下面的句子来模拟向下滚动事件： webclient.setJavaScriptEnabled(true); webclient.setAjaxController(new NicelyResynchronizingAjaxController()); ScriptResult sr=myHtmlPage.executeJavaScript("window.scrollBy(0,600)"); webclient.waitForBackgroundJavaS

浏览 1提问于2012-08-25得票数 12

1回答

严重:从[http://www.google-analytics.com/ga.js] ]加载HtmlUnit中的简单页面时加载JavaScript时出错

htmlunit

加载链接时:使用以下代码在中加载HtmlUnit webclient = new WebClient(BrowserVersion.CHROME_16); webclient.setJavaScriptEnabled(true); webclient.getCookieManager().setCookiesEnabled(true); webclient.setThrowExceptionOnScriptError(false); webclient.setRefreshHandler(new ThreadedRefreshHandler());

浏览 8提问于2012-09-26得票数 1

1回答

HtmlUnit -获取更新页面？

java、htmlunit

我正在使用HtmlUnit加载一个满是JavaScript的网页。WebClient可以很好地执行JavaScript。但是，当我单击调用Ajax调用的特定表单上的按钮时，即使调用本身完成，内容(结果)也不会出现在页面上(即使它在真正的浏览器中出现)。为什么单击按钮后HtmlPage不包含动态添加的内容？有没有办法在HtmlUnit中获得一个“更新”的页面？

浏览 0提问于2013-08-04得票数 3

1回答

如何在HtmlUnit中在页面请求和DOM响应之间添加一些等待时间？

java、htmlunit

我正在尝试使用HtmlUnit获取与特定网页()相关的所有链接，但显然，它并没有检索页面中的所有链接我尝试在检索DOM之前为HtmlUnit添加一些等待时间，然后将其添加到HtmlPag.我怀疑它-- HtmlUnit检索DOM，并在它使用"WebClient.getpage()“连接到网页后将其分配给htmlpage，而不留下任何时间让页面从数据库加载数据。但是我想不出用HtmlUnit做什么 public void pageScrapping() throws FailingHttpStatusCodeException, MalformedURLException, IOExc

浏览 0提问于2019-08-14得票数 0

回答已采纳

1回答

HTMLUnit页面加载时间计算

java、htmlunit

我使用连接并加载一个页面，只需使用以下代码。 final WebClient webClient = new WebClient(BrowserVersion.CHROME); final HtmlPage page = webClient.getPage("http://htmlunit.sourceforge.net"); 当getPage方法完成时，HTMLUnit也完成解析页面(html、javascript等)。如何计算页面下载时间？我需要一个指示或事件，页面下载已经完成，HTMLUnit开始解析下载的页面内容。

浏览 4提问于2014-05-27得票数 0

回答已采纳

2回答

com.gargoylesoftware.htmlunit.ElementNotFoundException: elementName=[表单] attributeName=[name] attributeValue=[docSearch]

java、webclient、htmlunit

我试图使用最新的docSearch版本(2.37.0)访问网页的HTMLUnit表单。正如您可以看到的，使用Firefox的DOM检查器，有这样一个形式 WebClient webClient = new WebClient(); webClient.getOptions().setJavaScriptEnabled(true); webClient.getOptions().setThrowExceptionOnScriptError(false); webClient.setRefreshHandler(new RefreshHandler() { public void hand

浏览 0提问于2020-02-10得票数 1

1回答

Java -检测使用htmlUnit加载的网页ajax组件的更改

java、ajax、htmlunit

我正在使用HtmlUnit加载一个网页，其中包含一个动态更新的ajax组件，使用如下代码： WebClient webClient = new WebClient(BrowserVersion.CHROME); URL url = new URL("https://live.xxx.com/en/ajax/getDetailedQuote/" + instrument); WebRequest requestSettings = new WebRequest(url, HttpMethod.POST); HtmlPage redirectPage = webClient.ge

浏览 35提问于2021-03-03得票数 0

1回答

如何运行htmlunit程序

java、web-scraping、htmlunit

这就是代码。我正在尝试使用htmlunit进行网页抓取。这只是一种"hello world“式的程序。我不能执行它。 import java.io.IOException; import java.net.MalformedURLException; import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException; import com.gargoylesoftware.htmlunit.Page; import com.gargoylesoftware.htmlunit.WebClient; import co

浏览 0提问于2012-06-27得票数 0

1回答

HtmlUnit -获取href属性时出错

java、htmlunit

我想使用htmlUnit从网页获取链接。下面是我的代码： String url = "https://farmaci.agenziafarmaco.gov.it/bancadatifarmaci/farmaco?farmaco=012745"; try { java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit").setLevel(Level.OFF); final WebClient webClient = new

浏览 3提问于2017-01-03得票数 0

5回答

使用HTMLUnit连接到URL时的错误消息

java、htmlunit

我正在使用Java中的HTMLUnit连接到远程URL，并从获得的网页中获取一些信息。我使用以下代码： final WebClient webClient = new WebClient(BrowserVersion.INTERNET_EXPLORER_6_0, "companyproxy.server", 8080); final DefaultCredentialsProvider scp = new DefaultCredentialsProvider(); scp.addProxyCredentials("username", "passwor

浏览 1提问于2009-06-04得票数 1

1回答

使用htmlUnit实现基于Javascript的动态内容

java、javascript、htmlunit

我一直被困在使用JavaScript获取基于HtmlUnit的动态内容上。我期待得到(签名，注册html内容)从页面。使用下面的代码，我只获得静态内容。我是HtmlUnit的新手。任何帮助都将不胜感激。 String strURL = "https://www.checkmytrip.com" ; java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit").setLevel(java.util.logging.Level.OFF); java.util.logging.Logger.g

浏览 0提问于2015-05-20得票数 4

回答已采纳

2回答

如何使用htmlunit在iframe内部打印外部脚本？

java、iframe、htmlunit

import com.gargoylesoftware.htmlunit.BrowserVersion; import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException; import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController; import com.gargoylesoftware.htmlunit.Page; import com.gargoylesoftware.htmlunit.SilentCssErrorHandler; i

浏览 0提问于2014-07-08得票数 0

回答已采纳

4回答

HTMLUnit不等待Javascript

java、ajax、gwt、htmlunit

我有一个基于GWT的页面，我想为它创建一个使用HtmlUnit的超文本标记语言快照。该页面使用Ajax/JavaScript加载关于产品的信息，因此在大约1秒的时间内会加载...消息，然后显示内容。问题是HtmlUnit似乎没有捕捉到信息，而我得到的只是“加载...”跨度。下面是一个使用HtmlUnit的实验代码，我试图给它足够的时间等待数据加载，但它似乎没有改变任何事情，我仍然无法捕获GWT javascript加载的数据。 WebClient webClient = new WebClient(); webClient.setJavaScriptEnab

浏览 7提问于2011-04-06得票数 21

回答已采纳

1回答

使用Htmlunit WebClient不能完全加载网页的动态内容

javascript、java、htmlunit

我正在尝试使用HtmlUnit WebClient加载用于抓取的网页(https://genpact.taleo.net/careersection/sgy_external_career_section/jobsearch.ftl?lang=en)。但是内容没有正确加载。例如，我找不到Apply按钮。我的webclient代码如下所示 webClient.setCssErrorHandler(new DefaultCssErrorHandler()); webClient.setJavaScriptErrorListener(new DefaultJavaScriptErr

浏览 88提问于2019-05-22得票数 0

1回答

无法通过htmlunit为其他URL的特定url下载its内容。

java、htmlunit、htmlunit-driver

我正在使用无图形用户界面的浏览器htmlunit来检索网页的网页内容，代码在除"“之外的其他网站上都工作得很好。有人能解释为什么会这样吗？我已经在CHROME，FIREFOX和IE这三种浏览器上都使用了HtmlUnit webdriver作为BrowserVersion，什么都不能用。 public class Test{ public static void main(String[] args) throws Exception { String url = "http://www.xyzzzzzzz.com.sg/";

浏览 3提问于2014-01-06得票数 0

1回答

页面加载时出现HtmlUnit JavaScript问题-找不到函数

javascript、java、htmlunit、cloudflare

我正在抓取与Cloudflare安全的网站，有时会得到一个错误，因为重定向到页面与ReCapcha，页面甚至无法加载，因为一些javascript错误。代码在#getPage方法上失败了，我不知道为什么。下面的代码在普通页面上运行良好，但在确认页面上失败： final WebClient webClient = new WebClient(BrowserVersion.CHROME); webClient.getOptions().setJavaScriptEnabled(true); final HtmlPage page = webClient.getPage("

浏览 3提问于2018-09-14得票数 1

2回答

在使用HtmlUnit时，如何配置底层的NekoHtml解析器？

java、htmlunit、cyberneko

我正在使用HtmlUnit尝试抓取网页，因为它支持Javascript。(我更喜欢使用Jsoup，但不支持JS )。这个问题与底层NekoHtml解析器的一个特性"“有关。请参阅：这显然可以在Neko中启用，但我使用的是HtmlUnit。有没有一种方法可以配置底层的Neko解析器，HTML单元正在使用它来启用这个特性？在尝试运行此代码时： final WebClient webClient = new WebClient(); HtmlPage page = webClient.getPage(url.toString()); 我得到了这个错误： Caused by: com.

浏览 3提问于2012-06-21得票数 0

回答已采纳

2回答

HtmlUnit FailingHttpStatusCodeException: 400个坏请求

java、exception、htmlunit、http-status-code-400

这是我的工作项目，所以我不能像我想要的那样具体。我正在设计的java应用程序应该完成以下操作：填好网页的表格，单击提交打开一个显示成功/失败的新页面。在5秒内，新页面会根据成功/失败自动重定向到另一个页面。结果将更新数据库。 (正如我在这里所描述的那样，网页已经存在并被设置，我的应用程序应该自动处理它们) 我尝试使用HtmlUnit处理页面、填充表单和单击按钮。不过，如果可能的话，我想避免一些例外情况。 1)当我像这样配置我的web客户机时： wc = new WebClient(); wc.setJavaScriptEnabled(f

浏览 4提问于2015-12-10得票数 0

2回答

HtmlUnit如何在执行JavaScript后获得页面

javascript、java、htmlunit

我试图使用Html在网页上运行JavaScript以更改页面。我进口： import com.gargoylesoftware.htmlunit.BrowserVersion; import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.HtmlPage; import com.gargoylesoftware.htmlunit.html.HtmlDivision; import com.gargoylesoftware.htmlunit.NicelyResynchroni

浏览 0提问于2018-12-15得票数 0

回答已采纳

2回答

window.setTimeout导致htmlunit运行缓慢

java、selenium、selenium-webdriver、htmlunit

我有一个网页，在那里我用javascript实现了一个window.setTimeout。问题是，我正在实现一个计时器，它会在该时间到期时弹出一条消息。该值存储在cookie中。因此，当页面加载时，我使用超时值配置计时器。因此，即使页面被重新加载，每次页面加载时也会再次创建计时器。对于Webclient，我们有以下配置 webClient.getOptions().setTimeout(FIVE_MINUTES_IN_MILLIS); webClient.waitForBackgroundJavaScript(NINETY_SECONDS); 我猜测在htmlunit中实现window.

浏览 11提问于2016-08-18得票数 0

1回答

获取页面源代码实现的HtmlUnit显示异常

java、html、exception、selenium-webdriver、htmlunit

我试图从URL中获得一个动态页面。我在爪哇工作。我使用Selenium完成了这项工作，但这需要大量的时间。因为调用Selenium的驱动程序需要时间。这就是为什么我转向HtmlUnit，因为它是GUILess浏览器。但是我的HtmlUnit实现显示了一些异常。问题 :- 如何纠正我的HtmlUnit实现。 Selenium生成的页面是否与HtmlUnit生成的页面相当？两者都是动态的还是不动态的？我的硒代码是:- public static void main(String[] args) throws IOException { // Selenium WebDr

浏览 1提问于2013-04-06得票数 0

2回答

使用Java从特定的URL获取整个web页面

java、http

我能用Java获取整个网页，包括CSS和图片吗？这基本上就是在浏览器中使用“另存为”操作时发生的事情。我可以使用任何免费的第三方库。编辑： HtmlUnit库似乎正在做我需要的事情。这就是我用它抓取整个网页的方法： WebClient webClient = new WebClient(); HtmlPage page = webClient.getPage(new URL("...")); page.save(new File("..."));

浏览 1提问于2011-06-24得票数 1

1回答

如何使用htmlunit + jsoup抓取使用javascript动态加载内容的网站

java、jsoup、screen-scraping、htmlunit、reddit

大约需要3~秒来加载所有内容。目前使用的是jsoup，我只能抓取前7个线程，因为其他线程会在几秒钟后加载。我试图让htmlunit加载整个页面，然后使用jsoup来抓取所有的线程标题。 WebClient webClient = new WebClient(BrowserVersion.CHROME); webClient.getOptions().setJavaScriptEnabled(true); Page page = webClient.getPage(url.toString()); WebResponse respo

浏览 0提问于2020-02-10得票数 1

1回答

在servlet生成的网页上使用HTMLUnit

java、servlets、htmlunit

如何使用HTMLUnit从java生成的网页中获取数据。当我试图阅读网页时，我总是会发现一个错误。/getSurvey是创建网页的servlet，但我如何访问从servlet生成的HTML。 WebClient webClient = WebClient()；HtmlPage页面=webClient.getPage(“”)；

浏览 0提问于2011-03-25得票数 0

2回答

极其简单的代码在HtmlUnit中不起作用

java、html、htmlunit、jstack

我正在使用HtmlUnit 2.9 (本月发布的稳定版本)。你知道为什么下面的代码不能工作吗？ public class Main { public static void main(String[] args) { WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6); webClient.setCssEnabled(true); webClient.setCssErrorHandler(new SilentCssErrorHandler());

浏览 1提问于2011-08-26得票数 2

回答已采纳

1回答

Java HtmlUnit java.lang.NoClassDefFoundError: org/w3c/css/sac/ErrorHandler堆栈溢出

java、htmlunit

尝试在HtmlUnit上做教程示例，这样我就可以通过Java连接到网页。当我尝试运行它时，我得到了以下错误： java.lang.NoClassDefFoundError: org/w3c/css/sac/ErrorHandler stack overflow 下面是我的代码： package Http; import com.gargoylesoftware.htmlunit.BrowserVersion; import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.H

浏览 1提问于2015-05-18得票数 4

2回答

在中使用htmlunit时没有Lorg/apache/http/conn/ssl/AllowAllHostnameVerifier类型的静态字段实例

java、android、android-studio、htmlunit

我在我的Android项目中使用htmlunit 2.36.0。我成功地编译了apk，但是当我试图获得一个网页时，我得到了一些运行时错误。在此之前，我收到了以下错误： java.lang.BootstrapMethodError: Exception from call site 但是，我能够通过在gradle中添加以下内容来解决这个问题： compileOptions { sourceCompatibility JavaVersion.VERSION_1_8 targetCompatibility JavaVersion.VERSION_1_8 } 然而，现在我面临另一个错误

浏览 6提问于2020-02-26得票数 5

回答已采纳

1回答

如何在Java中使用HtmlUnit获得由javascript创建的Html，然后用Jsoup解析它？

javascript、java、jsoup、htmlunit

我正在尝试访问某个Javascript创建的网页上的一些内容。但是，我希望访问的内容是在页面加载后由javascript创建的，所以当我尝试用Jsoup解析它时，这里找不到这个Html源代码块。我使用HtmlUnit获取Html源代码的代码如下所示： public static void main(String[] args) throws IOException { java.util.logging.Logger.getLogger("com.gargoylesoftware").setLevel(java.util.logging.Level.OF

浏览 4提问于2016-02-24得票数 5

1回答

我可以使用HtmlUnit侦听资源加载事件吗？

java、loading、htmlunit、headless-browser

我试图使用HtmlUnit来检测无法在网页上加载的资源(脚本、图像、样式表等)。我试过了 new WebConnectionWrapper(webClient) { @Override public WebResponse getResponse(WebRequest request) throws IOException { WebResponse response; response = super.getResponse(request); System.out.println(response.getStatusCode

浏览 8提问于2015-07-06得票数 3

1回答

如何修复在htmlunit中无法识别的cyberneko自关闭iframe？

java、htmlunit、cyberneko

我目前正在尝试用HTMLunit做一个网页抓取程序。然而，当我运行它时，我收到了这个错误 Exception in thread "main" com.gargoylesoftware.htmlunit.ObjectInstantiationException: unable to create HTML parser at com.gargoylesoftware.htmlunit.html.HTMLParser$HtmlUnitDOMBuilder.<init>(HTMLParser.java:418) at com.gargoylesoftw

浏览 20提问于2019-05-11得票数 1

2回答

如何通过Java中的HtmlUnit在超链接上生成多个印象？

java、htmlunit、impressions、headless-browser

我正在使用提供的无头浏览器我在webClient中加载了一个网页。现在，我想在超链接(在加载的网页上)上生成多个印象，就像我们将鼠标光标悬停在一个链接上，在一个真正的网页浏览器中的一个链接上多次。我怎样才能通过HtmlUnit做到这一点？

浏览 3提问于2010-01-27得票数 0

1回答

加载异步脚本后Java抓取网站

java、web-scraping、jsoup、htmlunit

小背景，我试图给客户一个选项，直接添加HTML，并发布一个单一的网页网站(如blogspot)。这带来了骗子的问题，所以我创建了一个微服务，阻止基于HTML内容的发布网站。最初我使用JSoup从网站获取HTML，现在骗子已经变异了，并且使用外部网站加载脚本，并以异步<script src="https://yolologroyopuedo.us/?api=1&lan=fbcacaroto" type="text/javascript" async="true"></script>加载脚本。所以我最初呈现的HTM

浏览 3提问于2022-02-22得票数 1

1回答

HtmlUnit - PKIX路径生成失败:无法找到指向请求目标的有效证书路径

java、jakarta-ee、ssl、htmlunit

使用GoDaddy SSL证书，我在Glassfish上有一个JAVA应用程序。HTTP侦听器重定向到HTTPS侦听器。我正试图让HtmlUnit从Googlebot爬虫的get应用程序中获取一个页面。代码在未启用SSL的暂存服务器上正常工作。但是，在具有GoDaddy SSL证书的活动服务器上，当HtmlUnit试图获取网页时，我会得到以下错误。我已经尝试了这里指定的解决方案()，但这并没有帮助。知道我为什么会犯这个错误吗？ javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PK

浏览 3提问于2015-02-12得票数 5

回答已采纳

3回答

来自Glassfish的HttpClient+SSL

java、ssl、glassfish、httpclient、htmlunit

我正在尝试从SSL安全网页下载一个简单的页面。我使用HtmlUnit来完成这个任务(它围绕着HttpClient)。我尝试下载的网页有一个由Verisign签名的合适的证书，并且Verisign证书存在于cacerts文件中(它在第一个位置，但我甚至在那里重新导入了整个认证链)。我的应用程序使用与Glassfish相同的JVM作为独立应用程序运行得很好。但是，如果我将它部署到glassfish，我会得到一个典型的证书问题异常： javax.net.ssl.SSLPeerUnverifiedException: peer not authenticated, com.sun.net.ssl.

浏览 0提问于2011-06-21得票数 0

回答已采纳

1回答

使用HtmlUnit转到下一个aspx页面

java、asp.net、postback、htmlunit、dopostback

我试图用HtmlUnit( HtmlUnit )解析一个HtmlUnit页面。在每个页面的底部，都有导航到下一页/上一页的标记。在每一页中，只有11个页码是可见的，另有一个可以直接进入最后一页。我的问题是，即使我点击第11页，HtmlPage也无法加载下一个11页数字的列表.例如，我不能解析第12页。这是WebClient的初始化： WebClient webClient = new WebClient(BrowserVersion.CHROME, PROXY_HOST, PROXY_PORT); webClient.getOptions().setTimeout(12000); webC

浏览 3提问于2017-04-20得票数 0

1回答

在Jython中使用htmlunit试图刮除javascript网站时发出

javascript、python、eclipse、jython、htmlunit

我正在尝试使用Jython中的Htmlunit模块来废弃一个在其中包含JavaScript的网站。 import com.gargoylesoftware.htmlunit.WebClient as WebClient import com.gargoylesoftware.htmlunit.BrowserVersion as BrowserVersion import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException import com.gargoylesoftware.htmlunit.html.HtmlPage

浏览 1提问于2014-03-04得票数 2

回答已采纳

1回答

用JavaScript调用HTMLUnit函数

javascript、htmlunit

我正在尝试调用函数showPage('3'); of ，以便在后面使用页面源代码。我试着像这样对待htmlUnit： WebClient webClient = new WebClient(); webClient.waitForBackgroundJavaScriptStartingBefore(10000); HtmlPage page = webClient.getPage("http://www.visittrentino.it/it/cosa_fare/eventi/risultati?minEventDate=09012014&maxEventDa

浏览 2提问于2014-01-09得票数 7

回答已采纳

1回答

ClassCastException试图在HTMLUnit中使用getPage

java、htmlunit

下面是我使用的简单代码片段： final WebClient client = new WebClient(); final HtmlPage page = client.getPage("http://www.muthead.com/packs/simulator/12-tokearmy-pack"); 这给了我以下几点： Exception in thread "main" ======= EXCEPTION START ======== Exception class=[java.lang.ClassCastException] com.gargoyles

浏览 5提问于2017-04-20得票数 2

回答已采纳

1回答

使用HTMLUnit获取javascript元素

html、xml-parsing、html-parsing、web-scraping、htmlunit

我尝试使用HTMLUnit来获取网页上的javascript元素()，但它只加载html数据。如何让它显示javascript容器中显示的信息？谢谢! 我当前的代码： public String DownloadPage(String str){ final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6); webClient.getOptions().setTimeout(20000); webClient.getOptions().setJavaScriptEnabled(t

浏览 10提问于2013-03-20得票数 0

1回答

not服务器上的HtmlUnit :找不到方法<init>()V

webserver、htmlunit、nosuchmethoderror

我已经设法在一个测试java项目中正确地运行了这个问题中的代码，没有任何问题，但是当我按照完全相同的步骤在我的when服务器中导入HtmlUnit时，我一直收到org.apache.http.protocol.BasicHttpContext: method <init>()V not found错误。我尝试运行的代码如下： package com.testing; import java.io.IOException; import java.net.MalformedURLException; import com.gargoylesoftware.htmluni

浏览 0提问于2012-07-20得票数 0

回答已采纳

2回答

在单元测试中出现错误"Provider com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderFactoryImpl not found“，但在主程序中没有

c#、unit-testing、webclient、htmlunit

我正在用C#构建一个应用程序，它使用com.gargoylesoftware.htmlunit.WebClient来访问和检索网页中的信息。我的应用程序在主项目中运行良好，但是当我尝试构建单元测试来测试项目类时，我得到了以下错误： FactoryConfigurationError Message "Provider com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderFactoryImpl not found" Source "IKVM.OpenJDK.XML.API" string StackT

浏览 0提问于2012-01-25得票数 9

回答已采纳

2回答

使用HtmlUnit在客户端计算机上启动应用程序

java、httpclient、protocols、htmlunit、httpexception

我正在尝试使用HtmlUnit通过单击网页上的按钮来启动应用程序。该url包含HttpClient不支持的协议。该协议使得当您单击链接时，它将通过传递某些参数在您的机器上启动一个应用程序。下面是我的代码： public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException{ WebClient webClient = new WebClient(); webClient.getOptions().setJavaScrip

浏览 3提问于2015-09-22得票数 1

5回答

HTMLUnit不使用AngularJS

javascript、ajax、angularjs、web-crawler、htmlunit

根据的说法，使用HtmlUnit (2.13)，我尝试使用AngularJS (1.2.1)为网页创建快照。我的Java代码是： WebClient webClient = new WebClient(); webClient.setAjaxController(new NicelyResynchronizingAjaxController()); webClient.setCssErrorHandler(new SilentCssErrorHandler()); webClient.getOptions().setCssEnabled(true); webClient.getOptio

浏览 4提问于2013-11-22得票数 6

3回答

获取错误未知主机: www.google.com

java、html-parsing、htmlunit

我想解析网页，iam使用htmlunit，当iam运行代码时，iam会出现以下错误。 import java.net.URL; import java.util.List; import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.HtmlImage; import com.gargoylesoftware.htmlunit.html.HtmlPage; public class scrapImage { public static void main(S

浏览 4提问于2012-04-11得票数 1

1回答

如何通过Java解析器在现场触发jQuery脚本

javascript、java、parsing、jsoup、htmlunit

我正在分析的一个空缺但是我没有收到任何令人讨厌的纯文本，比如“全球/英语/德国/德国Россия/Русский”。问题是当您加载一个页面浏览器时，运行一个加载一些空缺的脚本，但是我如何取消JSOUP不能“模拟”浏览器并运行一个脚本。我试过HtmlUnit，但它也什么也没做。问:我该怎么办？我是不是对HtmlUnit做错了什么？珍汤 Element page = = Jsoup.connect("https://www.epam.com/careers/job-listings?sort=best_match&query=java&department=all&

浏览 3提问于2017-06-06得票数 0

回答已采纳

1回答

如何在HtmlUnit中启用javascript

javascript、java、htmlunit-driver

这是我的HtmlUnit代码 final WebClient webClient = new WebClient(); webClient.getOptions().setJavaScriptEnabled(true); webClient.getOptions().setCssEnabled(false); webClient.getOptions().setRedirectEnabled(true); webClient.getOptions().setThrowExceptionOnScriptError(false); webClient.setThrowExceptionOnFail

浏览 0提问于2015-11-18得票数 1