Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >使用JSoup解析网页时出现过早的EOF错误

使用JSoup解析网页时出现过早的EOF错误
EN

Stack Overflow用户
提问于 2018-09-28 05:54:10
回答 1查看 183关注 0票数 0

我正在使用JSoup解析数以百计的网页。不幸的是,由于过早的EOF错误,整个过程周期性地失败。

Zeh:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Document dom = Jsoup.parse(new URL("page").openStream(), "UTF-8", "page");

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
java.io.IOException: Premature EOF

知道它是从哪里来的吗?以及我如何解决这个问题。

非常感谢。

EN

回答 1

Stack Overflow用户

发布于 2018-09-28 06:03:55

官方食谱(https://jsoup.org/cookbook/input/load-document-from-url)建议从url解析文档应该这样做:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Document doc = Jsoup.connect("http://example.com/").get();

也许这会有帮助,祝你好运

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52549136

复制
相关文章
Jsoup解析html
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Test { public static void main(String args[])throws Exception{ String index=""; Document doc = Jsoup.connect("http
西门呀在吹雪
2020/11/09
1.9K0
jsoup解析的常见用法
1、解析attribute中值,如下面所示的serviceID和serviceName:
Java架构师历程
2018/09/26
1.9K0
jsoup的maven依赖及jsoup解析html获取Element的数据(demo)
jsoup的maven依赖: jar包下载地址:http://note.youdao.com/noteshare?id=c2444dc21b286006fb9027683f2a5053 <de
挑战者
2018/06/29
4.8K0
java解析页面包jsoup
http://www.open-open.com/jsoup/parsing-a-document.htm
sanmutongzi
2020/03/04
1.8K0
JAVA网络爬虫之Jsoup解析
最近有个项目任务是爬取汽车之家上面各论坛的回复。但是大家都清楚汽车之家的反爬虫措施做得相当好。也是为了保护个人权益的原因或者是保护用户的信息吧。所以为了完成任务就必须要反反爬虫。这是一个很让人头痛的问题。
小白学大数据
2023/06/06
7160
Java爬虫系列三:使用Jsoup解析HTML「建议收藏」
在上一篇随笔《Java爬虫系列二:使用HttpClient抓取页面HTML》中介绍了怎么使用HttpClient进行爬虫的第一步–抓取页面html,今天接着来看下爬虫的第二步–解析抓取到的html。
全栈程序员站长
2022/07/18
1.6K0
Java爬虫系列三:使用Jsoup解析HTML「建议收藏」
Jsoup介绍及解析常用方法
jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本; jsoup解析 Jsoup提供一系列的静态解析方法生成Document对象 static Document parse(File in, String charsetName) static Document parse(File in, String charsetName, String baseUri) static Document parse(InputStream in, String charsetName, String baseUri) static Document parse(String html) static Document parse(String html, String baseUri) static Document parse(URL url, int timeoutMillis) static Document parseBodyFragment(String bodyHtml) static Document parseBodyFragment(String bodyHtml, String baseUri) 其中baseUri表示检索到的相对URL是相对于baseUriURL的 其中charsetName表示字符集 Connection connect(String url) 根据给定的url(必须是http或https)来创建连接 Connection 提供一些方法来抓去网页内容 Connection cookie(String name, String value) 发送请求时放置cookie Connection data(Map<String,String> data) 传递请求参数 Connection data(String... keyvals) 传递请求参数 Document get() 以get方式发送请求并对返回结果进行解析 Document post()以post方式发送请求并对返回结果进行解析 Connection userAgent(String userAgent) Connection header(String name, String value) 添加请求头 Connection referrer(String referrer) 设置请求来源 jsoup提供类似JS获取html元素: getElementById(String id) 用id获得元素 getElementsByTag(String tag) 用标签获得元素 getElementsByClass(String className) 用class获得元素 getElementsByAttribute(String key) 用属性获得元素 同时还提供下面的方法提供获取兄弟节点:siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling() 获得与设置元素的数据 attr(String key) 获得元素的数据 attr(String key, String value) 设置元素数据 attributes() 获得所以属性 id(), className() classNames() 获得id class得值 text()获得文本值 text(String value) 设置文本值 html() 获取html html(String value)设置html outerHtml() 获得内部html data()获得数据内容 tag() 获得tag 和 tagName() 获得tagname 操作html元素: append(String html), prepend(String html) appendText(String text), prependText(String text) appendElement(String tagName), prependElement(String tagName) html(String value) jsoup还提供了类似于JQuery方式的选择器 采用选择器来检索
西门呀在吹雪
2020/11/09
1.7K0
java爬虫利器Jsoup的使用
java中支持的爬虫框架有很多,比如WebMagic、Spider、Jsoup等。今天我们使用Jsoup来实现一个简单的爬虫程序,Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。我们可以使用Jsoup快速地掌握爬取页面数据的技巧。
小白学大数据
2023/03/24
1.5K0
【Spark Operator】executor解析driver servicename出现unknownhostexception错误
Spark Operator 中的 executor 和 driver 是通过 driver 的 service 来通信的,如果 Kubernetes 集群的 dns 组件有问题,那么 executor 就会有可能解析不到 driver 的域名,导致无法注册,最后 driver 被迫退出。
runzhliu
2020/08/05
8060
jsoup爬虫工具的简单使用
解决方案: 1.通过url 获得doucment对象, 2.调用select()等方法获得Elements对象, 3.调用.text()等方法,获得自己想要的内容。
Mshu
2018/10/31
1.8K0
网站建设dns解析设置 dns出现解析错误怎么办
现在大家搭建网站已经越来越简单,只要企业对网站的框架没有过多的要求,直接到网上找个模板进行套用,然后再修改一下信息就可以了,快速又简单。但有些小白在搭建网站的时候,总会遇到一系列的问题发生,比如网站建设dns解析设置,就有很多人不太懂,现在就以这个问题简单介绍一下。
用户8715145
2021/12/11
25.2K0
利用Jsoup解析网页,抓取数据的简单应用
最近一直在公司利用爬虫技术,去抓取一些网页查询网站备案信息,刚开始使用HttpClient 和 jericho (这两个也挺好用你可以去测试一下)。但是后来发现了Jsoup,他和Jquery很相似,在搜节点上使用的技术几乎相似。所以凡是使用过Jquery的都可以去尝试使用Jsoup去解析抓取数据。下面举个例子我们去抓去所有公交车的信息(哥是郑州的哈)。
用户5166556
2019/04/16
1.1K0
记一次jsoup的使用
connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。 Connection 接口还提供一个方法链来解决特殊请求,具体如下
一觉睡到小时候
2019/07/12
1.5K0
解决使用SecureCRT出现的Generic clipboard failure错误
我使用securecrt连接hp-ux进行操作,使用的版本是securecrt 6.6 64bit。
williamwong
2018/07/24
1.7K0
解决使用SecureCRT出现的Generic clipboard failure错误
EasyNTS现场维护出现login to server failed:EOF问题调整
作为TSINGSEE青犀视频开发的视频上云网关,EasyNTS的主要作用就是解决异地视频共享/组网的需求,网页对域名进行添加映射时,添加成功后会生成一个外网访问地址,在浏览器中输入外网访问地址,即可查看内网应用。无需开放端口,EasyNTS上云网关平台会向EasyNTS硬件发送端口组网的指令,短时间内组网成功,并形成云端能力对外发布。
TSINGSEE青犀视频
2021/12/15
8200
java爬虫框架之jsoup的使用
虽然python爬虫的首要选择语言,但也有一些人会选择使用java,并且对于长期使用java做编程的程序猿应该知道,java支持的爬虫框架还是有很多的,如:ebMagic、Spider、Jsoup等。今天我们就用Jsoup来实现一个小小的爬虫程序,Jsoup作为kava的HTML解析器,可以直接对某个URL地址、HTML文本内容进行解析。
小白学大数据
2023/05/09
1.1K0
Jsoup(一)Jsoup详解(官方)
一、Jsoup概述 1.1、简介     jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,  可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 1.2、Jsoup的主要功能     1)从一个URL,文件或字符串中解析HTML     2)使用DOM或CSS选择器来查找、取出数据     3)可操作HTML元素、属性、文本     注意:jsoup是基于MIT协议发布的,可放心使用于商业项目。 1.3、jsoup
用户1195962
2018/01/18
8.7K0
Jsoup(一)Jsoup详解(官方)
android开发 加载so库的解析和出现的各种错误分析
早期的Android系统几乎只支持ARMv5的CPU架构,你知道现在它支持多少种吗?7种!
再见孙悟空_
2023/02/10
2.4K0
android开发 加载so库的解析和出现的各种错误分析
getUserMedia()出现的常见错误
         3. 用户在你的getUserMedia()代码已经初始化之后才将摄像头/麦克风插到电脑上
唯一Chat
2022/10/28
2.2K0
出现500错误
早上闲来无事,在cpanel后台转悠,看到了hotlink保护,想想是不是设置一下防盗链呢,这个博客开始到现在也没有几张有价值的图片,其实防盗链没所谓的,凑凑热闹设置一下,以前用过cpanel后台的免费空间,设置过hotlink,所以就没在意,设置完关掉了。
空空裤兜
2023/03/03
1.6K0

相似问题

flex中过早出现EOF错误

20

flex文件中过早出现eof错误

20

如何解决Rscript解析错误:过早的EOF?

10

使用Jsoup连接到网页时出现的问题

20

使用univocity解析器加载大型CSV文件时过早出现EOF。

12
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文