首先,我想要感谢你们所有人花时间提前提供帮助
接下来,我想指出,当我在stackoverflow上检查google chrome中的元素时,我已经读到了这个它非常容易理解,但在下面列出的网页上它有点乱。
我希望能够加载来自此网页上列出的公司的信息
最后,这是我目前的代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Main {
public static void m
我正在尝试解析页面(任何页面动态解析器)。代码是
Elements title = doc.select("title");
Elements metades = doc.select("meta[name=description]");
如你所见,我想提取title标签。
它在大约每个网站上都工作得很好,例如hinddroid.com,但它无法从google.com和youtube.com解析标题,我认为这是因为两个标签之间没有空格。大多数大型网站都没有在html中留出空间来节省带宽。请推荐我-我想从网站解析html。
完整代码:
import java.io
我的java应用读取数据库行,并创建iText PDF文件。问题是,我得到的行中的一些单元格包含粗体HTML标记,这意味着我还必须在各自的iText段落中显示一个粗体块。
例如,DB行的一个单元格可能如下所示:
This is an <b>important</b> line and i <b>want</b> formatting in it
我现在所做的仅仅是使用jsoup获得bolds。
org.jsoup.nodes.Document doc = Jsoup.parse(input);
org.jsoup.select.Elements
我对scala相当陌生。我有这个方法来过滤所有元素--从给定的命名空间开始。
def getElementsByNamespace(element: org.jsoup.nodes.Element, namespace: String) : org.jsoup.select.Elements = {
val elements =
for {
el <- element.select("*")
if el.tagName().startWith(namespace+":")
} yield e