前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >提取网页中的超链接

提取网页中的超链接

作者头像
Java架构师必看
发布2021-03-22 10:30:16
1.5K0
发布2021-03-22 10:30:16
举报
文章被收录于专栏:Java架构师必看

usingSystem;usingSystem.Xml;usingSystem.Text;网络

强烈推介IDEA2020.2破解激活,IntelliJ IDEA 注册码,2020.2 IDEA 激活码

using System;

using System.Xml;

using System.Text;

using System.Net;

using System.IO;

using System.Collections;

using System.Text.RegularExpressions;

public class App

{

public static void Main()

{

string strCode;

ArrayList alLinks;

Console.Write("请输入一个网页地址:");

string strURL = Console.ReadLine();

if(strURL.Substring(0,7) != @"http://")

{

strURL = @"http://" + strURL;

}

Console.WriteLine("正在获取页面代码,请稍侯...");

strCode = GetPageSource(strURL);

Console.WriteLine("正在提取超链接,请稍侯...");

alLinks = GetHyperLinks(strCode);

Console.WriteLine("正在写入文件,请稍侯...");

WriteToXml(strURL,alLinks);

}

// 获取指定网页的HTML代码

static string GetPageSource(string URL)

{

Uri uri =new Uri(URL);

HttpWebRequest hwReq = (HttpWebRequest)WebRequest.Create(uri);

HttpWebResponse hwRes = (HttpWebResponse)hwReq.GetResponse();

hwReq.Method = "Get";

hwReq.KeepAlive = false;

StreamReader reader = new StreamReader(hwRes.GetResponseStream(),System.Text.Encoding.GetEncoding("GB2312"));

return reader.ReadToEnd();

}

// 提取HTML代码中的网址

static ArrayList GetHyperLinks(string htmlCode)

{

ArrayList al = new ArrayList();

string strRegex = @"http://([/w-]+/.)+[/w-]+(/[/w- ./?%&=]*)?";

Regex r = new Regex(strRegex,RegexOptions.IgnoreCase);

MatchCollection m = r.Matches(htmlCode);

for(int i=0; i<=m.Count-1; i++)

{

bool rep = false;

string strNew = m[i].ToString();

// 过滤重复的URL

foreach(string str in al)

{

if(strNew==str)

{

rep =true;

break;

}

}

if(!rep) al.Add(strNew);

}

al.Sort();

return al;

}

// 把网址写入xml文件

static void WriteToXml(string strURL, ArrayList alHyperLinks)

{

XmlTextWriter writer = new XmlTextWriter("HyperLinks.xml",Encoding.UTF8);

writer.Formatting = Formatting.Indented;

writer.WriteStartDocument(false);

writer.WriteDocType("HyperLinks", null, "urls.dtd", null);

writer.WriteComment("提取自" + strURL + "的超链接");

writer.WriteStartElement("HyperLinks");

writer.WriteStartElement("HyperLinks", null);

writer.WriteAttributeString("DateTime",DateTime.Now.ToString());

foreach(string str in alHyperLinks)

{

string title = GetDomain(str);

string body = str;

writer.WriteElementString(title,null,body);

}

writer.WriteEndElement();

writer.WriteEndElement();

writer.Flush();

writer.Close();

}

// 获取网址的域名后缀

static string GetDomain(string strURL)

{

string retVal;

string strRegex = @"(/.com/|/.net/|/.cn/|/.org/|/.gov/)";

Regex r = new Regex(strRegex,RegexOptions.IgnoreCase);

Match m = r.Match(strURL);

retVal = m.ToString();

strRegex = @"/.|/$";

retVal = Regex.Replace(retVal, strRegex, "").ToString();

if(retVal == "")

retVal = "other";

return retVal;

}

本文由来源 21aspnet,由 javajgs_com 整理编辑,其版权均为 21aspnet 所有,文章内容系作者个人观点,不代表 Java架构师必看 对观点赞同或支持。如需转载,请注明文章来源。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档