腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何使用crawler4j解析文档
、
、
、
我希望在Eclipse中使用crawler4j解析所有包含作为“查询”输入的文本的文档。
浏览 2
提问于2015-03-19
得票数 0
回答已采纳
1
回答
由于ParserError对象太多,
Jsoup
正在保持完整的GC吗?
、
Jsoup
是一个非常方便的工具来解析html,并且在我们的
爬虫
项目中用作一个基本的util。但最近我发现我们的
爬虫
有时总是做满GC的。java.lang.Thread.State: RUNNABLE at org.
jsou
浏览 0
提问于2011-12-03
得票数 0
回答已采纳
1
回答
是否下载CSS、JS和图片?
、
、
、
、
我正在学习写实验
爬虫
。我计划使用
JSoup
。例如,我的问题是,如果load facebook.com是
JSoup
,就会下载CSS、JS和图片,这些都是页面的一部分。简单地说,
JSoup
是否加载资产,如链接样式表、JS、图像等?
浏览 3
提问于2015-11-19
得票数 1
回答已采纳
1
回答
crawler JMeter中出错
、
我在JMeter中有一个
爬虫
测试(
爬虫
)的问题,我在java中也有本机代码,它不能工作,因为我需要在POST中发送一个名为javax.faces.ViewState的参数public static void main(String[] args) { Connection.Response loginForm =
Jsoup
.connectlike Gec
浏览 2
提问于2017-04-06
得票数 0
2
回答
Web Crawler与Html解析器
、
、
、
web
爬虫
和解析器有什么区别? 他们的目的是一样的吗?
浏览 3
提问于2018-11-14
得票数 2
回答已采纳
1
回答
使用
Jsoup
抓取带有加载图像的网页?
、
、
、
我在建一个网络
爬虫
来搜索。因为我只需要文章的标题来索引。我使用
Jsoup
连接URL目的地。
Jsoup
.connect(url).timeout(20000).execute(); 但是我遇到了一个问题,连接超时。我想知道超时是否是因为在该URL上加载了许多图像而发生的。我如何才能获得一个网页,而不用加载图片使用
Jsoup
?
浏览 0
提问于2018-06-13
得票数 0
1
回答
使用
jsoup
提取https urls
、
、
我有下面的代码,它使用
jsoup
从给定的页面中提取urls。import org.
jsoup
.
Jsoup
;import org.
jsoup
.nodes.Document;import org.
jsoup
.select.Elements; * Example
浏览 4
提问于2012-07-05
得票数 0
回答已采纳
1
回答
java中的Web爬行
、
、
在这种情况下,我需要抓取一组只包含一些xml数据的网页,并且我希望获得一个特定元素的属性。我如何在java中做到这一点?<page> . </student> . </page>编辑:我看到了一些有关这方面的网页,但我没有找到一个公平的答案。另外,如果有任何代码,我们将不胜感激。
浏览 6
提问于2015-11-12
得票数 0
回答已采纳
2
回答
使用
Jsoup
遍历web
、
我正在尝试使用Eclipse中的
JSoup
来遍历网络,查找大量关于国际足联世界杯的信息,以及每一届世界杯的球员和参赛国家。有谁能教我怎么做吗?
浏览 2
提问于2011-12-08
得票数 0
1
回答
Jsoup
礼貌策略+ DNS解析器
、
、
、
我正在用java实现一个搜索引擎,并且我正在使用
Jsoup
API来制作
爬虫
组件,但有两件事我仍然不太明白。首先:获取一个网页,即从维基百科站点调用
Jsoup
.connect()函数,如下所示第二件事是DNS解析器。我已
浏览 2
提问于2017-05-05
得票数 0
2
回答
是否自动解决Java SSL错误-无法找到指向所请求目标的有效认证路径
、
、
我正在尝试使用
jsoup
库来构建一个简单的网络
爬虫
。然而,当我在一些网站上调用"
Jsoup
.connect(url).get()“时,我得到了下面的错误。因为我正在尝试做一个可以连接到许多网站的网络
爬虫
,这并不是一个真正的解决方案。 有没有推荐的方法来解决这个问题?对于一个简单的网络
爬虫
来说,安全性并不是一个特别需要考虑的问题,所以证书的真实性并不重要。
浏览 1
提问于2017-06-11
得票数 0
1
回答
java.lang.IllegalArgumentException:必须提供有效的网址
、
、
我试图为我的OOP类建立一个网络
爬虫
。
爬虫
需要遍历1000个维基百科页面,并收集页面上的标题和单词。当前的代码将遍历一个单数页并收集所需的信息,但它也给我错误代码"java.lang.IllegalArgumentException:必须提供一个有效的URL:“这是我的
爬虫
代码。import java.util.HashMap;import org.
jsoup
.
Jsoup
; import org.
jsoup
.nodes.Do
浏览 5
提问于2022-08-07
得票数 0
2
回答
仅搜索动态数据
、
有没有办法让我编程的
爬虫
,使静态按钮,如主页,按钮及其页脚是相同的,每个页面都不包括在
爬虫
中System.out.println(
Jsoup
.parse(html).body
浏览 3
提问于2013-02-12
得票数 2
回答已采纳
1
回答
用google bot掩码java
jsoup
爬虫
来下载网页
、
我在我的网络
爬虫
里用
Jsoup
。这是我用来下载网页的代码。X 10_6_8) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30"; Document doc =
Jsoup
.connect
浏览 2
提问于2013-08-27
得票数 1
回答已采纳
1
回答
让
Jsoup
支持由JavaScript动态生成的html
、
、
、
、
现在我正在做一个网络
爬虫
。这应该会解析一些特定的站点,并将输出转换为一个xml文件。到目前为止,这是没有问题的。
爬虫
可以工作,你可以通过cfg文件对其进行快速定制。我使用
Jsoup
来解析HTML内容。 我刚刚又添加了几个站点,并注意到通过JavaScript创建的HTML内容有一个很大的问题。有没有办法让
Jsoup
支持Javascript?
浏览 3
提问于2012-09-27
得票数 5
回答已采纳
1
回答
使用时找不到Java类异常
、
、
我正在写一个使用
Jsoup
的网络
爬虫
,但在正确导入类后运行代码时,我得到了一个类找不到异常。Exception in thread "main" java.lang.NoClassDefFoundError: org/
jsoup
/
Jsoup
at crawler.main(crawler.java:56) Caused by: java.lang.ClassNotF
浏览 0
提问于2016-02-19
得票数 2
1
回答
如何使用
Jsoup
登录ASPX网站
、
、
、
我一直在尝试使用
Jsoup
爬虫
登录aspx网站,到目前为止我找到的所有东西都是表单,但是这个aspx网站here没有任何表单。我该怎么做呢?这是我到目前为止所知道的: Connection.Response loginForm =
Jsoup
.connect(LOGARUN_URL) .execute(); Connection.Response currentPage =
Jsoup
.con
浏览 23
提问于2020-01-01
得票数 2
1
回答
用于爬行单个域及其所有子站点的Java
爬虫
、
我一直在寻找和观察许多不同的
爬虫
。但我不太确定该选哪一个。到目前为止,只有一只
爬虫
引起了我的注意: 有什么想法吗?
浏览 1
提问于2013-08-05
得票数 1
回答已采纳
1
回答
在Android应用程序中从动态视频播放器网页中抓取视频链接
、
、
、
我正在开发一个应用程序的目的是从一个在线视频播放器下载MP4视频。用户打开视频播放器,我的应用程序应该下载用户指定的视频。 视频播放器显示动态内容,我的意思是,它可以显示的视频没有固定数量。有时它会显示四个视频,有时甚至会显示五十个。视频播放器上有“下一步”和“上一步”按钮。这些按钮跳过或返回到视频播放器当前加载的视频。 目前,我正在抓取视频播放器的网页,当前播放的MP4视频的链接可以从网页的超文本标记语言源代码中访问。我想要的是我的应用程序应该一次检索所有这些链接,这只能通过单击视频播放器上的下一步按钮并从HTML代码中抓取链接,直到没有视频可供显示。 有没有人可以建议一些技术,让我的应用
浏览 47
提问于2019-02-11
得票数 0
1
回答
Web crawler在网站更改时中断
、
、
我已经根据创建了一个网络
爬虫
。这是正常工作的,但如果我替换Document doc =
Jsoup
.connect("http://www.mit.edu/").get();processPage("http://www.stackoverflow.com"); Document doc =
Jsoup
.connect("h
浏览 2
提问于2014-06-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫之Jsoup
Jsoup
Java做爬虫也很牛
Java爬虫框架WebMagic的使用总结
Java爬虫之爬取中国高校排名前100名并存入MongoDB中
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券