Hongten
JAVA中使用Htmlparse解析HTML文档
关注作者
前往小程序,Get
更优
阅读体验!
立即前往
腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hongten
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
社区首页
>
专栏
>
JAVA中使用Htmlparse解析HTML文档
JAVA中使用Htmlparse解析HTML文档
Hongten
关注
发布于 2018-09-18 10:29:32
2.2K
0
发布于 2018-09-18 10:29:32
举报
文章被收录于专栏:
Hongten
Hongten
import
java.util.HashMap;
import
java.util.Map;
import
org.htmlparser.Node;
import
org.htmlparser.NodeFilter;
import
org.htmlparser.Parser;
import
org.htmlparser.tags.LinkTag;
import
org.htmlparser.util.NodeList;
import
com.yao.http.HttpRequester;
import
com.yao.http.HttpRespons;
/**
* JAVA中使用Htmlparse解析HTML文档,使用htmlparse遍历出HTML文档的所有超链接(<a>标记)。
*
* @author YYmmiinngg
*/
public
class
Test {
public
static
void
main(String[] args) {
try
{
/* 首先我们先使用HttpRequester类和HttpRespons类获得一个HTTP请求中的数据(HTML文档)。 可以从(http://download.csdn.net/source/321516)中下载htmlloader,该库中有上述类;或从我的《JAVA发送HTTP请求,返回HTTP响应内容,实例及应用》一文中摘取上述两JAVA类的代码。htmlparse可以从(http://download.csdn.net/source/321507)中下载
*/
Map<String, String> map =
new
HashMap<String, String>();
HttpRequester request =
new
HttpRequester();
HttpRespons hr = request.sendGet("http://www.baidu.com");
Parser parser = Parser.createParser(hr.getContent(), hr
.getContentEncoding());
try
{
// 通过过滤器过滤出<A>标签
NodeList nodeList = parser
.extractAllNodesThatMatch(
new
NodeFilter() {
//实现该方法,用以过滤标签
public
boolean
accept(Node node) {
if
(node
instanceof
LinkTag)//<A>标记
return
true
;
return
false
;
}
});
// 打印
for
(
int
i = 0; i < nodeList.size(); i++) {
LinkTag n = (LinkTag) nodeList.elementAt(i);
System.out.print(n.getStringText() + " ==>> ");
System.out.println(n.extractLink());
}
}
catch
(Exception e) {
e.printStackTrace();
}
}
catch
(Exception e) {
e.printStackTrace();
}
}
}
本文参与
腾讯云自媒体分享计划
,分享自作者个人站点/博客。
原始发表:2011-03-23 ,如有侵权请联系
cloudcommunity@tencent.com
删除
前往查看
其他
本文分享自
作者个人站点/博客
前往查看
如有侵权,请联系
cloudcommunity@tencent.com
删除。
本文参与
腾讯云自媒体分享计划
,欢迎热爱写作的你一起参与!
其他
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
LV.
关注
文章
0
获赞
0
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐