我正在尝试解析任何给定页面的HTML转储。我使用了HTML Parser,还尝试了使用JSoup进行解析。
我在Jsoup中找到了有用的函数,但在调用Document doc = Jsoup.connect(url).get();
时出现了403错误
我尝试了HTTPClient,以获取html转储,但对于相同的url,它是成功的。
为什么JSoup给403的同一个URL提供来自commons http客户端的内容?我做错了什么吗?有什么想法吗?
发布于 2012-04-13 15:12:50
工作解决方案如下所示(感谢Angelo Neuschitzer提醒将其作为解决方案):
Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag(HTML.Tag.CITE.toString);
for (Element link : links) {
String linkText = link.text();
System.out.println(linkText);
}
因此,userAgent做到了:)
https://stackoverflow.com/questions/10120849
复制相似问题