首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在jsoup中加载文档之前获取http内容长度

如何在jsoup中加载文档之前获取http内容长度
EN

Stack Overflow用户
提问于 2018-05-21 12:27:20
回答 1查看 990关注 0票数 2

我正在做一些网络刮刮,在java中使用jsoup以广度第一的方式。换句话说,对于每个页面,我提取所有链接并将它们添加到一个队列中进行抓取,然后在while循环中删除并刮掉urls,当队列为空时停止。我要做的是,在将链接添加到用于抓取的边界/队列之前,根据目标文档的大小对它们进行排序,以便首先对较小的文档进行抓取。在实际下载整个文档之前,是否有方法从url获取给定文档的大小?例如,在调用connection.get()加载整个文档之前,是否有一种方法可以从连接中获取http内容长度?谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-05-23 12:57:07

您可以使用http方法获取内容长度,而无需下载请求体。使用jsoup时,这看起来可能如下所示:

代码语言:javascript
运行
复制
Response resp = Jsoup.connect(url).method(Method.HEAD).execute();
String length = resp.header("Content-Length");

更多关于HEAD方法的信息:https://developer.mozilla.org/en-US/docs/Web/HTTP/Methods/HEAD

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50448918

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档