开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么我的JSoup请求返回一个空文档？

JSoup是一个用于解析HTML文档的Java库。当你使用JSoup发送请求并返回一个空文档时，可能有以下几个原因：

请求的URL无效：请确保你提供的URL是正确的，并且可以在浏览器中正常访问。如果URL无效或无法访问，JSoup将返回一个空文档。
请求的页面内容为空：有时候，请求的URL返回的页面内容可能为空。这可能是因为页面正在维护、暂时不可用或者没有内容可供解析。你可以尝试在浏览器中手动访问该URL，以确认页面是否有内容。
请求的页面内容是动态生成的：JSoup是一个静态HTML解析库，无法执行JavaScript代码或处理动态生成的内容。如果请求的页面内容是通过JavaScript动态生成的，JSoup将无法解析该内容。你可以考虑使用其他工具或库，如Selenium，来处理动态生成的内容。
请求的页面需要登录或身份验证：如果请求的页面需要登录或身份验证，你需要在发送请求之前先进行登录或身份验证。你可以使用JSoup提供的方法来模拟登录或发送带有身份验证信息的请求。
请求的页面内容被反爬虫机制阻止：有些网站会使用反爬虫机制来阻止爬虫程序的访问。如果你的请求被网站的反爬虫机制拦截，JSoup将返回一个空文档。你可以尝试使用代理IP、设置请求头信息或者使用其他反爬虫技术来绕过这些机制。

总结起来，当JSoup请求返回一个空文档时，可能是由于无效的URL、空的页面内容、动态生成的内容、需要登录或身份验证，或者被反爬虫机制阻止等原因。你可以根据具体情况进行排查和处理。

相关搜索:为什么formdata返回一个空对象？为什么getFields()返回一个空对象？为什么我对JIRA api创建附件的请求返回一个空数组为什么我抓取的div返回时是空的为什么我的api请求返回一个空对象？为什么我的axios请求不能返回正确的数据？为什么我的Bing认知服务请求返回401？为什么我的firestore集合返回0个文档为什么我的guize6get()调用返回一个空流？为什么我的http请求不返回响应？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

为什么我的递归函数返回None

问：我有一个调用自己的函数: def get_input(): my_var = input('Enter "a" or "b": ') if my_var !...: Type "a" or "b": a got input: a 但是，如果我输入别的东西，然后输入 "a" 或 "b"，我会得到这样的结果: Type "a" or "b": purple You...Type "a" or "b": a got input: None 我不明白为什么 get_input() 函数返回的是 None，因为它本应只返回 my_var。这个 None 是从哪里来的？...我该如何修复我的函数呢？答：它返回 None 是因为当你递归调用它时: if my_var != "a" and my_var !...Python3 documentation 因此，除了在 if 语句中调用 get_input() 之外，还需要返回递归调用返回的内容。

1071 0

浅谈我为什么选择用Retrofit作为我的网络请求框架

比较AsyncTask、Volley、Retrofit三者的请求时间使用单次请求 7个请求 25个请求 AsyncTask 941ms 4539ms 13957ms Volley 560ms 2202ms...以淘宝的ip库请求为例地址：http://ip.taobao.com/service/getIpInfo.php 请求参数：ip 请求方法: get ---- 声明接口 public interface...ApiControl { //@Query注解的作用理解为查询条件，这里表示需要查询的字段为ip //ResponseBody是Retrofit自带的返回类， @GET("http...map，注解用@QueryMap @GET("url") Call getInfo(@QueryMap Map params); //post的请求参数是放在请求体中的...，就是body内(详见http请求),这是以json格式传递参数的 @POST("url") @FormUrlEncoded Call doLogin(@Body User

1K2 0

浅谈我为什么选择用Retrofit作为我的网络请求框架

比较AsyncTask、Volley、Retrofit三者的请求时间使用单次请求 7个请求 25个请求 AsyncTask 941ms 4539ms 13957ms Volley 560ms 2202ms...以淘宝的ip库请求为例地址：http://ip.taobao.com/service/getIpInfo.php 请求参数：ip 请求方法: get ---- 声明接口 public interface...ApiControl { //@Query注解的作用理解为查询条件，这里表示需要查询的字段为ip //ResponseBody是Retrofit自带的返回类， @GET("http...map，注解用@QueryMap @GET("url") Call getInfo(@QueryMap Map params); //post的请求参数是放在请求体中的...，就是body内(详见http请求),这是以json格式传递参数的 @POST("url") @FormUrlEncoded Call doLogin(@Body User

1.4K5 0

请求后返回的内容里tbody里面是空的，没办法去解析数据

一、前言前几天在Python白银交流群【菜】问了一个Python网络爬虫的问题。...问题如下：问题：这个网页源代码里面的数据在tbody标签里面，但是requests发送请求后返回的内容里tbody里面是空的，没办法去解析数据。链接：如图所示。...已经尝试过的：csdb 百度等查资料，没有找到有用的，解决方案互相抄，提到解析的时候把tbody这一层标签去掉。问题是返回的内容里面，tbody里面是空的，去不去掉都一样。...顺利地解决了粉丝的问题。如果你也有类似这种Python相关的小问题，欢迎随时来交流群学习交流哦，有问必答！三、总结大家好，我是Python进阶者。...这篇文章主要盘点了一个Python网络爬虫的问题，文中针对该问题，给出了具体的解析和代码实现，帮助粉丝顺利解决了问题。

771 0

解惑 | 为什么我根据时间戳获得的offset为空呢？

每一个成功人士的背后，必定曾经做出过勇敢而又孤独的决定。放弃不难，但坚持很酷~ kafka_2.11-1.1.0 一、前言最近有一个需求，要查询某一时间戳对应的offset值，于是就想到了使用 ..../bin/kafka-run-class.sh kafka.tools.GetOffsetShell --time ，但是我在测试的时候，发现有的时间戳会获取不到offset，是空...每一个 xxx.log 文件都算作一个 segment，kafka.tools.GetOffsetShell --time 参数匹配的是 xxx.log 文件本身最后的修改时间，而不是偏移量本身的时间戳...根据上面图片，举几个例子：当 time 为 2020-09-16 11:59:20 时，获取的 offset 值为空。...三、调用 kafka java api 获取时间戳对应的 offset，并封装成工具脚本很纳闷，为什么官方不提供获取时间戳对应的精准的 offset 呢？

2.6K3 0

JAVA爬虫

HTTP 协议工具包，是一个增强版的HttpURLConnection，HttpURLConnection可以做的事情HttpClient全部可以做；HttpURLConnection没有提供的有些功能...调用HttpClient对象的execute(HttpUriRequest request)发送请求，该方法返回一个HttpResponse。 5....程序可通过该对象获取服务器的响应内容。 6. 释放连接。无论执行方法是否成功，都必须释放连接。（关于释放连接，应该不是必须滴，我没处理也抓的好好地。。。）...三、解析DOM文档要获取一张网页中我们所需要的内容，就必须解析文档，jsoup就是一款公认的、迄今最强大的解析html的工具 http://www.open-open.com/jsoup/...这是页面的开始部分，也就是整个网页的抓取，内容就不做完全展示了。但是会发现天猫价格打印下来为空，这是为什么呢？

9163 1

只因少写一个判空，我的代码上线后炸了!

举例一种情况：为了获取：省(Province)→市(Ctiy)→区(District)→街道(Street)→道路名(Name) 作为一个“严谨且良心”的后端开发工程师，如果手动地进行空指针保护，我们难免会这样写...，直接链式取值必定有问题，因为中间只要某一个环节的对象为 null，则代码一定会炸，并且抛出 NullPointerException异常，然而俄罗斯套娃式的 if判空实在有点心累。...如果为 null，返回一个单例空 Optional对象；如果非 null，则返回一个 Optional包装对象 map(xxx )：该函数主要做值的转换，如果上一步的值非 null，则调用括号里的具体方法进行值的转化...；反之则直接返回上一步中的单例 Optional包装对象 orElse(xxx )：很好理解，在上面某一个步骤的值转换终止时进行调用，给出一个最终的默认值当然实际代码中倒很少有这种极端情况，不过普通的...getScore()这个函数的返回值的特殊性（有可能为 null），这样一个警示一定会很大几率上帮助调用者规避 null指针异常。

9062 0

爬虫入门（Java）

是一种按照一定规则，自动抓取网页信息的脚本。对于获取公开数据，是一个效率很高的工具。本篇文章先介绍HttpClient，Jsoup这两个开源工具。...HttpClient 官方文档http://hc.apache.org/httpcomponents-client-ga/index.html HttpClient不是浏览器，一个apache开源的库。...连接池 HttpClient相当于一个浏览器，平时我们请求完链接后，并不需要关闭浏览器，相当于数据库操作，没不需要每次都关闭，数据库有连接池的概念，那么HttpClient工具也是有这个概念的。...把文章补一下，这篇文章是上个星期写的了，这几天有一件事“格力举报奥克斯空调质量"，我看了一下京东这两家店铺，感觉很有意思，但是尝试爬了一下，jd页面数据绝大多数是通过Ajax请求获取的，我用浏览器调试工具...（F12），发现这些Ajax很负责，并且多关键数据做了些混淆，就是直接去请求Ajax链接返回的数据还需要通过特定JS处理，得到原有数据。

1.4K2 0

谁说只有Python才能写爬虫了？Javaer转身甩出这个框架：给爷爬！

但是如果自己熟悉的语言有一个好上手，开箱即用的爬虫框架，一解燃眉之急，是不是就可以在短时间内高效的完成自己的目标呢？那么就分享给广大Java程序员一个好用的爬虫框架，Jsoup。...-- or latest version --> 2.一行代码返回页面只需要一行代码即可对一个链接发起请求，返回页面数据。...Jsoup 请求一个页面，就是这么简单。...但是我们还要对页面信息进行解析，从一个复杂的 HTML 文档中找到我们要信息。先来简单的介绍一下 Jsoup 常见的类以及 api，方便后续的介绍。...这些逻辑对于一个熟练掌握 Java 语言的程序员来说，都是很容易实现的事情。这也是为什么，我认为 Java 程序员使用自己的本职语言来开发爬虫，效率会更高一些。

5292 0

手把手教你从零开始用Java写爬虫

Jsoup解析后寻找class=item lazy的a标签，他的child节点(即)就是我们要找的目标节点了，搜索到的应当是一个ArrayList。...3、简单测试下get请求，若请求成功，则进入下一步；若报错，检查URL是否带了中文。...4、寻找class为item lazy的元素,找到他的child节点，返回ArrayList。并将图片的URL单独提取出来。...Mozilla") .cookie("auth", "token") .timeout(3000) .post(); String title = doc.title();四、从一个文件加载一个文档...如果不需要可以传入一个空的字符串 Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); 五、使用DOM方法来遍历一个文档

1.5K2 0

JAVA爬虫

但是如果自己熟悉的语言有一个好上手，开箱即用的爬虫框架，一解燃眉之急，是不是就可以在短时间内高效的完成自己的目标呢？那么就分享给广大Java程序员一个好用的爬虫框架，Jsoup。...-- or latest version -->2.一行代码返回页面只需要一行代码即可对一个链接发起请求，返回页面数据。...请求一个页面，就是这么简单。...但是我们还要对页面信息进行解析，从一个复杂的 HTML 文档中找到我们要信息。先来简单的介绍一下 Jsoup 常见的类以及 api，方便后续的介绍。...这些逻辑对于一个熟练掌握 Java 语言的程序员来说，都是很容易实现的事情。这也是为什么，我认为 Java 程序员使用自己的本职语言来开发爬虫，效率会更高一些。

7352 0

浏览器的一个请求从发送到返回都经历了什么？

默认80，可选） 6 ：指向资源的层级文件路径 7 ：查询字符串 8 ：片段ID 为什么用IP无法访问网站，而用域名可以？...所谓的递归查询，是指DNS服务器在收到用户发起的请求时，必须向用户返回一个准确的查询结果。如果DNS服务器本地没有存储与之对应的信息，则该服务器需要询问其他服务器，并将返回的查询结构提交给用户。...而迭代查询则是指，DNS服务器在收到用户发起的请求时，并不直接回复查询结构，而是告诉另一台DNS服务器的地址，用户再向这台DNS服务器提交请求，这样依次反复，直到返回查询结果。...服务器响应请求服务接收到客户端发送的HTTP请求后，查找客户端请求的资源，并返回响应报文，响应报文中包括一个重要的信息 -- 状态码。状态码由三位数字组成。...服务器返回相应文件服务器端收到请求后的由web服务器（准确说应该是http服务器）处理请求，诸如Apache、Ngnix、IIS等。

1.7K3 0

Jsoup-爬取实战

Jsoup官网中文文档导入依赖 ---- 不会maven可参考我的另一篇博客 org.jsoup...搜索jsoup为例，请求该URL，查看你所需信息标签的id或class，用Jsoup返回浏览器Document对象，然后可以用js的方法获取对象和操作。...q=jsoup&t=&u="; //解析网页(Jsoup返回浏览器Document对象，可以使用Js的方法) Document document=Jsoup.parse(...q=jsoup&t=&u="; //解析网页(Jsoup返回浏览器Document对象，可以使用Js的方法) Document document=Jsoup.parse(..., el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo 总结爬取数据思路：获取请求、返回页面信息、筛选所需数据。

2.3K3 0

谁说我不会用Java爬去网页数据

上次我给同事抓了一份16万条数据的网站，这只是一个分类下边的。使用的jQuery技术，每次导出3000条，就写到Excel中，受各种条件限制。.../www.open-open.com/jsoup/ 解析和遍历一个HTML文档如何解析一个HTML文档： String html = "First parse<...从一个URL加载一个Document 存在问题你需要从一个网站获取和解析一个HTML文档，并查找其中的相关数据。...Connection 接口还提供一个方法链来解决特殊请求，具体如下： Document doc = Jsoup.connect("http://example.com") .data("query"...a") .attr("rel", "nofollow"); 说明与Element中的其它方法一样，attr 方法也是返回当 Element (或在使用选择器是返回 Elements 集合)。

7021 0

数据结构思维第六章树的遍历

6.1 搜索引擎网络搜索引擎，像谷歌搜索或 Bing，接受一组“检索项”，并返回一个网页列表，它们和这些项相关（之后我将讨论“相关”是什么意思）。...为此，我们将使用jsoup，它是一个下载和解析 HTML 的开源 Java 库。解析 HTML 的结果是文档对象模型（DOM）树，其中包含文档的元素，包括文本和标签。...请见 https://jsoup.org/apidocs/org/jsoup/select/Selector.html。在你继续之前，你应该仔细阅读这些类的文档，以便知道他们能做什么。...在通常的惯例中，它提供： push：它将一个元素添加到栈顶。 pop：它从栈中删除并返回最顶部的元素。 peek：它返回最顶部的元素而不修改栈。 isEmpty：表示栈是否为空。...为什么栈和队列是有用的，可能不是很明显：它们不提供任何列表没有的功能；实际上它们提供的功能更少。那么为什么不使用列表的一切？

8202 0

自学爬虫 1 - What is 爬虫？

对于爬虫，我的定义就是：在Java中爬虫是Jsoup，在python中就是requests(urlib)库(Scrapy先不提)。...，使用jsoup发起请求，代码如下： import org.jsoup.Jsoup; import org.jsoup.nodes.Document; public class Test{ public...这就是爬虫的第一步，代码就像一个浏览器，根据输入的url对服务器发起请求，只是你的代码不会像浏览器一样，将html里面的标签和js代码解析并页面展现。...假设下面的html是通过上面的，请求获取到的网页数据: 为什么Java天下第一 <a id...soup = BeautifulSoup(html, 'html.parser') # select是将所有选中的属性放到list返回，select_one是只返回list中的第一个元素 # 这里的参数

6682 0

Jsoup入门学习一

实例发送一个http协议的Get请求。...://jsoup.org/ Jsoup最新下载：https://jsoup.org/download Jsoup学习文档：https://jsoup.org/cookbook/introduction/...实例发送一个http协议的Get请求。...且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。Select方法将返回一个Elements集合，并提供一组方法来抽取和处理结果。...实例发送一个http协议的Get请求。

2.4K1 0

Scala中如何使用Jsoup库处理HTML文档？

本文将介绍如何利用Scala中强大的Jsoup库进行网络请求和HTML解析，从而实现爬取京东网站的数据，让我们一起来探索吧！1. 为什么选择Scala和Jsoup？...Jsoup的强大功能Jsoup是一个开源的Java HTML解析库，它提供了一套简单而强大的API，能够方便地从HTML文档中提取所需的信息。...相比于其他HTML解析库，Jsoup具有以下几个优势：简单易用：Jsoup提供了直观、易懂的API，使得开发者可以轻松地从HTML文档中提取所需的数据，无需复杂的配置和学习成本。...强大的选择器：Jsoup支持类似CSS选择器的语法，可以灵活地定位和提取HTML文档中的元素，大大简化了数据提取的过程。...2.完整代码过程下面是一个完整的示例代码，演示了如何使用Scala和Jsoup库爬取京东网站的商品数据：import org.jsoup.Jsoupimport scala.collection.JavaConverters

931 0

深入探讨网络抓取：如何使用 Scala 和 Dispatch 获取 LinkedIn 图片

发送 HTTP 请求到目标网站解析响应的 HTML 文档提取所需的数据存储或处理数据在本文中，我们将使用 Scala 语言和 Dispatch 库来实现一个简单的网络抓取程序，该程序的功能是从...我们将介绍如何使用 Dispatch 发送 HTTP 请求，如何使用代理 IP 技术绕过反爬虫机制，以及如何使用 Jsoup 库解析 HTML 文档并提取图片链接。...，并获取一个 Response 对象，与之前的步骤相同： // 使用 Http 对象来执行请求，并返回一个 Future[Response] 对象 val response: Future[Response...为了解析 HTML 文档，我们可以使用 Jsoup 库，它是一个基于 Java 的 HTML 解析器，它提供了一种类似于 jQuery 的语法来操作 HTML 元素。...Jsoup 库的核心是一个名为 Document 的对象，它表示一个 HTML 文档。Document 对象可以使用 parse 方法来创建，该方法接受一个字符串作为参数，表示 HTML 文档的内容。

2251 0

一个值得深思的小问题 - 请求中的参数值为空要不要携带该参数？

我这朋友的问题是这样的，前端请求接口，带过去了一些参数，但是其中有个参数没值，也就是空，但是呢后端在接收该值的时候没有类型判断（该字段是int类型），相当于直接把一个空字符串直接转为int类型。...比如,请求参数如下 name=bigerfe&age=&a=1 其中参数age是int类型，但是前端传了空，后端取参数的时候报错了。...然后要出一个传参规范，声明string类型的字段如果值为空串的，请求的时候就不要携带该参数。其他类型的会给一个默认值。...比如这样,age字段干掉了 name=bigerfe&a=1 我这朋友不乐意了，觉得这不合理，认为本质问题就是兜底处理没做好，怎么扯到规范上来了，觉得这个规范对他们的影响挺大，需要改代码，不能接收这个提议...比如我在后台要修改某个人的信息，改为空，怎么办？走不通了吧！好了，别的不多说了，可能还有其他的场景，大家可以留言来讨论。最后，有时候我们可能觉得某些方案不合理，但是一时也想不出去为什么不合理？

3K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭