我有一个项目,要求我使用JSOUP进行网络抓取。我能够从我想要刮的网站主页上得到数据。但是,当我通过循环进入超链接并访问它而在页面中更深入地抓取时,我会得到以下错误:
java.io.IOException: Input is binary and unsupported
at org.jsoup.UncheckedIOException.<init>(UncheckedIOException.java:11)
at org.jsoup.parser.CharacterReader.<init>(CharacterReader.java:38)
好的,我正在学习Web抓取,并且对Java很满意,所以我选择了Jsoup,这是一个web抓取库。我计划抓取 (这只是一个编码问题),但我发现很难抓取所有显示的内容,这是不可能的,因为大部分内容是动态源。因此,我使用selenium来呈现JavaScript并获得简单的HTML页面,然后将其提供给JSOUP。
因此,我尝试打印呈现的HTML页面以进行验证,但在运行代码时会出现以下错误:
我的守则:
File f = new File("<Path to chromedriver.exe>");
System.setProperty("webdr
我正在尝试使用JAVA中的JSoup库从网页中抓取数据。然而,这里的问题是,我想要抓取的数据是基于XML加载的,所以当我试图从HTML解析它时,它会显示出来
<div id="report-details-container">
<!-- Container where HTML template will be loaded based on XML -->
</div>
而不是完整的HTML,它只显示这个注释。
我如何抓取数据,因为在inspect元素中我可以看到完整HTML。
我正在尝试使用jsoup来抓取一个网站。我使用源超文本标记语言中的".eventTableRow“类将表行提取到Elements对象中,但我不确定如何访问单个单元格。我正在尝试获取单元格中的数据,如下图中用框突出显示的数据:
Elements row = doc.select(.eventTableRow);
System.out.println(row);
//prints similar to below image :
我不能上传图片,因为我没有10个声誉
我知道对于你们中的许多人来说,这是初级的,我肯定会得到jsoup文档的链接,但我已经阅读并尝试了几个小时,就是不能让它为我
我正在尝试从网址:* 中抓取附图中的价格和日期
我成功地抓取了信息,但没有找到我想要的方式(日期+价格)。我使用了以下几行代码
import java.io.IOException;
import javax.lang.model.element.Element;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class Test {
public static void main(String[] args) {
D
我对Java和Jsoup都是新手。我已经成功地用Jsoup抓取了网站数据。然而,目前我正在打印搜索结果的标题,它们都在一行中返回。我想将结果嵌套在一个for循环中,这样搜索标题结果就会打印在一行上。
This is how the website is formatted:
<ul>
<li><span class ="title">Title 1<span></li>
<li><span class ="title">Title 2<span></li>
我正在试着抓取这个网站 https://www.dailystrength.org/search?query=aspirin&type=discussion 为我的一个项目获取一个数据集(使用阿司匹林作为占位符搜索项目)。 我已经决定用Jsoup来做一个爬虫。但问题是,帖子是通过Ajax请求动态带来的。使用显示更多按钮发出请求 This button causes the problems 当显示整个内容时,它应该看起来像这样,并带有文本“所有消息已加载”。 end result import java.io.IOException;
import java.util.ArrayLi
jsoup
当从有200个元素的网站抓取数据时,输出只有200个元素中的前49个或50个元素,为什么?-我如何解决这个问题。要获取所有200个元素的数据?
Document d = Jsoup.connect("https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2047675.m570.l1313.TR0.TRC0.H0.Xsilver.TRS0&_nkw=silver&_sacat=0").timeout(6000).get();
Elements ele = d.select("div#Re