正在找一个库/方法来解析一个html文件,它比通用的xml解析库有更多的html特性。
发布于 2018-03-15 13:03:21
Html敏捷包
这是一个敏捷的HTML解析器,它构建了一个读/写DOM,并支持普通的XPATH或XSLT(实际上,不需要理解XPATH或XSLT就可以使用它,不用担心...)。它是一个.NET代码库,允许解析“离开网页”的HTML文件。解析器对格式错误的HTML非常宽容。但是对于HTML文档(或流)的对象模型与提出System.Xml非常相似。
发布于 2018-03-15 13:29:13
可以使用TidyNet.Tidy将HTML转换为XHTML,然后使用XML解析器。
另一种选择是使用内置引擎mshtml:
using mshtml;
...
object[] oPageText = { html };
HTMLDocument doc = new HTMLDocumentClass();
IHTMLDocument2 doc2 = (IHTMLDocument2)doc;
doc2.write(oPageText);
这允许使用类似javascript的函数,如getElementById()
https://stackoverflow.com/questions/-100003187
复制相似问题