我正在使用jsoup来提取tweeter文本。所以html结构是
<p class="js-tweet-text tweet-text">@sexyazzjas There is so much love in the air, Jasmine! Thanks for the shout out. <a href="/search?q=%23ATTLove&src=hash" data-query-source="hashtag_click" class="twitter-hashtag pretty-
因此,我目前正在尝试从csgo赌博网站收集数据来分析它们。所以我写了一个很短的程序,从这个网站提取html代码,但它不会提取web应用程序的内容。我现在的问题是,我需要这个web应用程序中的信息。我的意思是我可以在Chrome中看到它,所以我想会有解决方案的。也许这些图片有助于理解我正在寻找的东西:
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Element;
public class Main {
public static void main(String[] args)
我正在使用Jsoup从Godaddy的网站中提取html。我想在下面提取这个特定的片段。我有两个最终网页的特定部分,它说“对不起,google.com已被占用”和HTML码本身。
然而,在我的程序中,我有以下内容:
import java.io.IOException;
导入org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class test {
public static voi
我正在尝试开发和应用与jsoup和java来报废一些网页。所以我希望做的是让jsoup先获取页面源代码,然后在页面源代码上让下面的javascript执行并返回一个结果。
$("body, body *").each(function(i, val) {
// do something and something more
});
我计划使用ScriptEngineManager来执行Java中的javascript代码。
ScriptEngineManager manager = new ScriptEngineManager();
ScriptEngine engin
我正在尝试解析页面(任何页面动态解析器)。代码是
Elements title = doc.select("title");
Elements metades = doc.select("meta[name=description]");
如你所见,我想提取title标签。
它在大约每个网站上都工作得很好,例如hinddroid.com,但它无法从google.com和youtube.com解析标题,我认为这是因为两个标签之间没有空格。大多数大型网站都没有在html中留出空间来节省带宽。请推荐我-我想从网站解析html。
完整代码:
import java.io
如果我试图解析一些html文档,它会导致这个错误:
java.lang.OutOfMemoryError
at java.lang.Object.internalClone(Native Method)
at java.lang.Object.clone(Object.java:82)
at java.lang.AbstractStringBuilder.append0(AbstractStringBuilder.java:172)
at java.lang.StringBuilder.append(StringBuilder.java:224)
at org.jsoup.parser.Tok
我有一个来自HTML的org.w3c.dom.Document org.jsoup.nodes.Document。
当我序列化org.w3c.dom.Document时,它会生成一个无效的XML文件:它不关闭META标记。
为什么?这是个虫子吗?从jsoup?从爪哇org.w3c.dom?来自javax.xml.transform.Transformer
与之相关的bug:
W3CDom.fromJsoup fails when xmlns is defined
org.jsoup.nodes.Document.toString()应该生成一个有效的XML文件吗?
示例代码:
我的Android应用程序使用Jsoup连接到网站
implementation group: 'org.jsoup', name: 'jsoup', version: '1.11.2'
我的logcat有以下消息
OkHttpClient: A connection to http://www.xxx.yyy.zzz/ was leaked. Did you forget to close a response body?
我的jsoup连接类似于:-
final Document feedNavigator = Jsoup.connect(u
通过了解前面的元素,是否有可能使用jSoup获得继续的元素?
例如,在这个html中,我有表“给定这个项目的”的数据。
我想取下一个包含“查找这个”的表
<table><tr><td>irrelevant info 1 <a href="http://jsoup.org/">jsoup</a></td></tr></table>
<p>there is a p here</p>
<table><tr><td>Given th
我正在写一个使用Jsoup的网络爬虫,但在正确导入类后运行代码时,我得到了一个类找不到异常。当我编译了一个只导入JSoup类而不使用它的程序时,它导入得很好,但是当我尝试使用这个类时,我得到了一个异常。
Exception in thread "main" java.lang.NoClassDefFoundError: org/jsoup/Jsoup
at crawler.getLinksFromPage(crawler.java:14)
at crawler.main(crawler.java:56)
Caused by: java.lang.
我想解析一个html字符串。它抛出如下异常。内容长度大于65536,是不是有问题?谢谢!
Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 66467
at org.jsoup.parser.CharacterReader.nextIndexOf(CharacterReader.java:92)
at org.jsoup.parser.CharacterReader.containsIgnoreCase(CharacterReader.java:277)
at org
我试图使用加载,但是我得到了一个初始化错误:
<cfscript>
// An Array with absolute file paths of the referred jar files.
paths = expandPath("jars/jsoup-1.7.3.jar");
//Creating a java loader object by passing in the array containing the file paths -
loaderObj =createObject("component","javaloader.
编辑:我的编程版本是4.7
今天我试着在我的安卓应用中加入了jsoup (version 1.7.1),但是它给我带来了很多麻烦。当我在每次我的应用程序面临强制关闭问题时,在proguard 打开的情况下导出签名的时,我禁用了proguard并导出了apk,它运行得很好。请帮帮我。我如何解决这个错误?堆栈跟踪如下:
java.lang.RuntimeException: An error occured while executing doInBackground()
at android.os.AsyncTask$3.done(AsyncTask.java:278)
at java.util