腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
用
Java
在
HtmlUnit
中
实现
网页
抓取
、
、
我刚刚开始接触
抓取
之类的东西,并且写了一段简单的代码。我正在尝试访问这个websie https://parimatch.com (这是一个投注网站),我只想从它获得字符串形式的信息,就是它。
浏览 17
提问于2021-10-21
得票数 0
回答已采纳
3
回答
如何从
网页
中
抓取
图片?
、
我使用
htmlunit
从
网页
中
抓取
图像。我是
htmlunit
的初学者。我编码了,但不知道如何获取图像。下面是我的代码。import
java
.io.*;import com.gargoylesoftware.
htmlunit
.BrowserVersion;import com.gargoyles
浏览 1
提问于2012-04-11
得票数 1
回答已采纳
1
回答
如何运行
htmlunit
程序
、
、
我正在尝试使用
htmlunit
进行
网页
抓取
。这只是一种"hello world“式的程序。我不能执行它。import
java
.io.IOException;import com.gargoylesoftware.
htmlunit
.Page;
浏览 0
提问于2012-06-27
得票数 0
1
回答
使用
Java
以编程方式读取动态创建的RSS提要
、
、
到目前为止,这还不是一个问题,但我们最近遇到了一个RSS提要,它是
在
onload事件中使用javascript动态创建的。= null) result += line;然而,
在
动态创建RSS的情况下,这是不够的,因为我们得到的只是一个HTML页面,说明必须打开javascript。我在想,我们需要一些嵌入式
网页
,但这看起来就像是
用
大锤敲坚果一样。编辑:
在
浏览RSS提要时关闭javascript之后,仍然返回XML格式的提要数据,这在某种程度上加剧了我的困惑。有人建议一
浏览 0
提问于2013-11-19
得票数 1
2
回答
在
使用
HtmlUnit
时,如何配置底层的NekoHtml解析器?
、
、
我正在使用
HtmlUnit
尝试
抓取
网页
,因为它支持Javascript。(我更喜欢使用Jsoup,但不支持JS )。这显然可以
在
Neko
中
启用,但我使用的是
HtmlUnit
。有没有一种方法可以配置底层的Neko解析器,HTML单元正在使用它来启用这个特性?
在
尝试运行此代码时:HtmlPage page
浏览 3
提问于2012-06-21
得票数 0
回答已采纳
1
回答
使用javascripts
在
页面上进行web
抓取
、
、
、
我做web
抓取
已经有几个月了,总是被
用
javascript加载数据的页面卡住。有没有
实现
这一目标的具体方法? 但就我而言,我还没有深入研究
HTMLunit
。那么你的建议是什么呢?我应该坚持使用
HTMLunit
,还是有其他好的方法(库)来
实现
javascrip
浏览 1
提问于2013-06-06
得票数 2
1
回答
用
HTMLUnit
实现
火库
网页
的网络
抓取
、
、
我使用
htmlunit
2.36.0并尝试擦除:不知何故没有通过javascript执行动态内容获取。有没有人知道怎么修复它?
浏览 4
提问于2019-10-23
得票数 0
1
回答
Selenium clickAt命令是否适用于无头浏览器?
、
、
、
、
我正在考虑
用
PhantomJS (或
htmlunit
)这样的无头浏览器来取代火狐,
用
selenium来进行
网页
抓取
活动。我认为selenium
中
的clickAt命令依赖于页面图形呈现,它在PhantomJS
中
不起作用。有人能证实这一点吗?
浏览 4
提问于2016-09-30
得票数 1
3
回答
将
Java
应用程序绑定到接口
、
、
我正在使用Jericho和
HtmlUnit
来
抓取
一些
网页
。我想指定哪个接口应该用于HTTP连接。有没有办法
在
命令行或
Java
中
做到这一点?
浏览 2
提问于2013-06-06
得票数 2
1
回答
解析
网页
、
、
问题是,当我
用
java
加载页面并将其保存到文件
中
时,它不包含我需要的信息。当我单击页面上的“查看源”时,也没有任何信息。但是,当我下载页面(另存为)并用记事本打开它时,我能够找到我需要的东西。简而言之,
java
加载的
网页
不同于我下载并使用记事本打开的
网页
。 如何将页面加载到字符串
中
,使其看起来与我
在
计算机上下载的页面相同?
浏览 4
提问于2014-07-02
得票数 2
回答已采纳
1
回答
如何使用
htmlunit
+ jsoup
抓取
使用javascript动态加载内容的网站
、
、
、
、
目前使用的是jsoup,我只能
抓取
前7个线程,因为其他线程会在几秒钟后加载。我试图让
htmlunit
加载整个页面,然后使用jsoup来
抓取
所有的线程标题。它不会出错,但是我仍然
用
jsoup得到了7个线程。 警告:脚本不是应用程序(类型:‘JavaScript /json’,语言:'')。正在跳过执行。(WebClient.
java
:419) at com.gargoylesoftware.
htmlunit
.WebClient.getPage ) (HtmlP
浏览 0
提问于2020-02-10
得票数 1
5
回答
自动生成HTTP屏幕
抓取
Java
代码
、
、
、
我需要从网站上
抓取
一些数据,因为这些数据不能通过他们的web服务获得。当我之前需要这样做时,我已经使用Apache的HTTP客户端库自己编写了
Java
代码,以便进行相关的HTTP调用来下载数据。通过
在
浏览器
中
单击相关屏幕,同时使用记录相应的HTTP调用,我找出了需要进行的相关调用。正如您可以想象的那样,这是一个相当单调乏味的过程,我想知道是否有工具可以实际生成与浏览器会话相对应的
Java
代码。我希望生成的代码不会像手动编写的代码那么漂亮,但我总是可以
在
事后清理它。Selenium是我知道
浏览 0
提问于2009-01-08
得票数 6
6
回答
HtmlUnit
的替代方案
、
、
、
到目前为止,我一直
在
研究可用的无头浏览器,发现
HtmlUnit
被广泛使用。与
HtmlUnit
相比,我们是否有任何替代
HtmlUnit
的可能优势? 谢谢Nayn
浏览 3
提问于2010-11-23
得票数 20
回答已采纳
1
回答
HtmlUnit
2.15可以使用TLS而不是SSL连接吗?
、
、
、
、
我有一个
Java
应用程序,该应用程序使用
HtmlUnit
2.15连接到
网页
,并对其内容进行
抓取
。其中一些urls需要TLS,而其他urls则需要SSL。
HtmlUnit
允许您在获取页面时指定希望它使用的协议吗?
浏览 3
提问于2014-10-15
得票数 3
回答已采纳
2
回答
使用
Java
从特定的URL获取整个web页面
、
我能用
Java
获取整个
网页
,包括CSS和图片吗?这基本上就是
在
浏览器中使用“另存为”操作时发生的事情。我可以使用任何免费的第三方库。
HtmlUnit
库似乎正在做我需要的事情。这就是我用它
抓取
整个
网页
的方法:HtmlPage page = webClient.getPage(new URL("..
浏览 1
提问于2011-06-24
得票数 1
1
回答
PhantomJS WebDriver与.pac自动代理设置?
、
、
、
有办法
用
my_url.pac代替na代理url吗?
浏览 2
提问于2015-07-16
得票数 0
回答已采纳
7
回答
最好的
Java
HTTP库?
、
我想为学院项目
用
Java
开发http客户端,它可以登录网站,从HTML数据
中
获取数据,完成表格的填写和发送。
浏览 0
提问于2010-09-12
得票数 7
回答已采纳
10
回答
使用
Java
进行Web
抓取
、
、
我找不到任何好的基于
Java
的web
抓取
API。我需要
抓取
的站点也不提供任何API;我想使用一些pageID遍历所有
网页
,并在它们的DOM树中提取HTML标题/其他内容。除了网络
抓取
之外,还有其他方法吗?
浏览 1
提问于2010-07-08
得票数 72
回答已采纳
1
回答
如何修复
在
htmlunit
中
无法识别的cyberneko自关闭iframe?
、
、
我目前正在尝试用
HTMLunit
做一个
网页
抓取
程序。<init>(HTMLParser.
java
:342) at com.gargoylesoftware.
htmlunit
.DefaultPageCreator.createPa
浏览 20
提问于2019-05-11
得票数 1
1
回答
从
网页
中
解析Javascript
、
我是
Java
新手,但我决定尝试让一个小项目成为现实。我正在尝试从一个网站上
抓取
一些
网页
,我的问题是,虽然我可以获得原始材料,但我无法将“检查元素”材料打印出来。我看过无数的视频,也在这里搜索过,但无论如何,我只能让一个程序打印出这个
网页
的原始材料。我正在尝试从一个表
中
获取信息,以便定价。该
网页
是"“。我的基本程序是:import
java
.net.MalformedURLExcepti
浏览 0
提问于2018-01-08
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券