问当apache.httpclient能够获取内容时，JSoup.connect抛出403错误
EN

Stack Overflow用户

提问于 2012-04-12 17:24:50

回答 1查看 8.4K关注 0票数 19

我正在尝试解析任何给定页面的HTML转储。我使用了HTML Parser，还尝试了使用JSoup进行解析。

我在Jsoup中找到了有用的函数，但在调用Document doc = Jsoup.connect(url).get();时出现了403错误

我尝试了HTTPClient，以获取html转储，但对于相同的url，它是成功的。

为什么JSoup给403的同一个URL提供来自commons http客户端的内容？我做错了什么吗？有什么想法吗？

html-parsing

jsoup

java

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-04-13 15:12:50

工作解决方案如下所示(感谢Angelo Neuschitzer提醒将其作为解决方案)：

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag(HTML.Tag.CITE.toString);
for (Element link : links) {
            String linkText = link.text();
            System.out.println(linkText);
}

因此，userAgent做到了:)

票数 47

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10120849

复制

相似问题

问当apache.httpclient能够获取内容时，JSoup.connect抛出403错误
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当apache.httpclient能够获取内容时，JSoup.connect抛出403错误EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当apache.httpclient能够获取内容时，JSoup.connect抛出403错误
EN