爬虫 jsoup - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

如何使用crawler4j解析文档

、、、

我希望在Eclipse中使用crawler4j解析所有包含作为“查询”输入的文本的文档。

浏览 2提问于2015-03-19得票数 0

回答已采纳

1回答

由于ParserError对象太多，Jsoup正在保持完整的GC吗？

、

Jsoup是一个非常方便的工具来解析html，并且在我们的爬虫项目中用作一个基本的util。但最近我发现我们的爬虫有时总是做满GC的。java.lang.Thread.State: RUNNABLE at org.jsou

浏览 0提问于2011-12-03得票数 0

回答已采纳

1回答

是否下载CSS、JS和图片？

、、、、

我正在学习写实验爬虫。我计划使用JSoup。例如，我的问题是，如果load facebook.com是JSoup，就会下载CSS、JS和图片，这些都是页面的一部分。简单地说，JSoup是否加载资产，如链接样式表、JS、图像等？

浏览 3提问于2015-11-19得票数 1

回答已采纳

1回答

crawler JMeter中出错

、

我在JMeter中有一个爬虫测试(爬虫)的问题，我在java中也有本机代码，它不能工作，因为我需要在POST中发送一个名为javax.faces.ViewState的参数public static void main(String[] args) { Connection.Response loginForm = Jsoup.connectlike Gec

浏览 2提问于2017-04-06得票数 0

2回答

Web Crawler与Html解析器

、、、

web爬虫和解析器有什么区别？他们的目的是一样的吗？

浏览 3提问于2018-11-14得票数 2

回答已采纳

1回答

使用Jsoup抓取带有加载图像的网页？

、、、

我在建一个网络爬虫来搜索。因为我只需要文章的标题来索引。我使用Jsoup连接URL目的地。Jsoup.connect(url).timeout(20000).execute(); 但是我遇到了一个问题，连接超时。我想知道超时是否是因为在该URL上加载了许多图像而发生的。我如何才能获得一个网页，而不用加载图片使用Jsoup？

浏览 0提问于2018-06-13得票数 0

1回答

使用jsoup提取https urls

、、

我有下面的代码，它使用jsoup从给定的页面中提取urls。import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements; * Example

浏览 4提问于2012-07-05得票数 0

回答已采纳

1回答

java中的Web爬行

、、

在这种情况下，我需要抓取一组只包含一些xml数据的网页，并且我希望获得一个特定元素的属性。我如何在java中做到这一点？<page> . </student> . </page>编辑:我看到了一些有关这方面的网页，但我没有找到一个公平的答案。另外，如果有任何代码，我们将不胜感激。

浏览 6提问于2015-11-12得票数 0

回答已采纳

2回答

使用Jsoup遍历web

、

我正在尝试使用Eclipse中的JSoup来遍历网络，查找大量关于国际足联世界杯的信息，以及每一届世界杯的球员和参赛国家。有谁能教我怎么做吗？

浏览 2提问于2011-12-08得票数 0

1回答

Jsoup礼貌策略+ DNS解析器

、、、

我正在用java实现一个搜索引擎，并且我正在使用Jsoup API来制作爬虫组件，但有两件事我仍然不太明白。首先:获取一个网页，即从维基百科站点调用Jsoup.connect()函数，如下所示第二件事是DNS解析器。我已

浏览 2提问于2017-05-05得票数 0

2回答

是否自动解决Java SSL错误-无法找到指向所请求目标的有效认证路径

、、

我正在尝试使用jsoup库来构建一个简单的网络爬虫。然而，当我在一些网站上调用"Jsoup.connect(url).get()“时，我得到了下面的错误。因为我正在尝试做一个可以连接到许多网站的网络爬虫，这并不是一个真正的解决方案。有没有推荐的方法来解决这个问题？对于一个简单的网络爬虫来说，安全性并不是一个特别需要考虑的问题，所以证书的真实性并不重要。

浏览 1提问于2017-06-11得票数 0

1回答

java.lang.IllegalArgumentException:必须提供有效的网址

、、

我试图为我的OOP类建立一个网络爬虫。爬虫需要遍历1000个维基百科页面，并收集页面上的标题和单词。当前的代码将遍历一个单数页并收集所需的信息，但它也给我错误代码"java.lang.IllegalArgumentException:必须提供一个有效的URL:“这是我的爬虫代码。import java.util.HashMap;import org.jsoup.Jsoup; import org.jsoup.nodes.Do

浏览 5提问于2022-08-07得票数 0

2回答

仅搜索动态数据

、

有没有办法让我编程的爬虫，使静态按钮，如主页，按钮及其页脚是相同的，每个页面都不包括在爬虫中System.out.println(Jsoup.parse(html).body

浏览 3提问于2013-02-12得票数 2

回答已采纳

1回答

用google bot掩码java jsoup爬虫来下载网页

、

我在我的网络爬虫里用Jsoup。这是我用来下载网页的代码。X 10_6_8) AppleWebKit/534.30 (KHTML, like Gecko) Chrome/12.0.742.122 Safari/534.30"; Document doc = Jsoup.connect

浏览 2提问于2013-08-27得票数 1

回答已采纳

1回答

让Jsoup支持由JavaScript动态生成的html

、、、、

现在我正在做一个网络爬虫。这应该会解析一些特定的站点，并将输出转换为一个xml文件。到目前为止，这是没有问题的。爬虫可以工作，你可以通过cfg文件对其进行快速定制。我使用Jsoup来解析HTML内容。我刚刚又添加了几个站点，并注意到通过JavaScript创建的HTML内容有一个很大的问题。有没有办法让Jsoup支持Javascript？

浏览 3提问于2012-09-27得票数 5

回答已采纳

1回答

使用时找不到Java类异常

、、

我正在写一个使用Jsoup的网络爬虫，但在正确导入类后运行代码时，我得到了一个类找不到异常。Exception in thread "main" java.lang.NoClassDefFoundError: org/jsoup/Jsoup at crawler.main(crawler.java:56) Caused by: java.lang.ClassNotF

浏览 0提问于2016-02-19得票数 2

1回答

如何使用Jsoup登录ASPX网站

、、、

我一直在尝试使用Jsoup爬虫登录aspx网站，到目前为止我找到的所有东西都是表单，但是这个aspx网站here没有任何表单。我该怎么做呢？这是我到目前为止所知道的： Connection.Response loginForm = Jsoup.connect(LOGARUN_URL) .execute(); Connection.Response currentPage = Jsoup.con

浏览 23提问于2020-01-01得票数 2

1回答

用于爬行单个域及其所有子站点的Java爬虫

、

我一直在寻找和观察许多不同的爬虫。但我不太确定该选哪一个。到目前为止，只有一只爬虫引起了我的注意：有什么想法吗？

浏览 1提问于2013-08-05得票数 1

回答已采纳

1回答

在Android应用程序中从动态视频播放器网页中抓取视频链接

、、、

我正在开发一个应用程序的目的是从一个在线视频播放器下载MP4视频。用户打开视频播放器，我的应用程序应该下载用户指定的视频。视频播放器显示动态内容，我的意思是，它可以显示的视频没有固定数量。有时它会显示四个视频，有时甚至会显示五十个。视频播放器上有“下一步”和“上一步”按钮。这些按钮跳过或返回到视频播放器当前加载的视频。目前，我正在抓取视频播放器的网页，当前播放的MP4视频的链接可以从网页的超文本标记语言源代码中访问。我想要的是我的应用程序应该一次检索所有这些链接，这只能通过单击视频播放器上的下一步按钮并从HTML代码中抓取链接，直到没有视频可供显示。有没有人可以建议一些技术，让我的应用

浏览 47提问于2019-02-11得票数 0

1回答

Web crawler在网站更改时中断

、、

我已经根据创建了一个网络爬虫。这是正常工作的，但如果我替换Document doc = Jsoup.connect("http://www.mit.edu/").get();processPage("http://www.stackoverflow.com"); Document doc = Jsoup.connect("h

浏览 2提问于2014-06-11得票数 0

点击加载更多

如何使用crawler4j解析文档

由于ParserError对象太多，Jsoup正在保持完整的GC吗？

是否下载CSS、JS和图片？

crawler JMeter中出错

Web Crawler与Html解析器

使用Jsoup抓取带有加载图像的网页？

使用jsoup提取https urls

java中的Web爬行

使用Jsoup遍历web

Jsoup礼貌策略+ DNS解析器

是否自动解决Java SSL错误-无法找到指向所请求目标的有效认证路径

java.lang.IllegalArgumentException:必须提供有效的网址

仅搜索动态数据

用google bot掩码java jsoup爬虫来下载网页

让Jsoup支持由JavaScript动态生成的html

使用时找不到Java类异常

如何使用Jsoup登录ASPX网站

用于爬行单个域及其所有子站点的Java爬虫

在Android应用程序中从动态视频播放器网页中抓取视频链接

Web crawler在网站更改时中断

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐