这是一个称为包装器归纳或web数据提取的研究问题。我不知道有没有这样的库,但有很多研究论文(参见下面的优秀论文列表)和一些研究项目,如DIADEM (他们的网站也包含出版物列表)。
- Muslea,Ion,Steven Minton和Craig A. Knoblock。“Hierarchical Wrapper Induction for Semistructured Information Sources”自主代理和多代理系统4,第1-2期(2001):93-114。
- Dalvi,Nilesh,Ravi Kumar和穆罕默德·索利曼。“Automatic Wrappers for Large Scale Web Extraction.”VLDB捐赠基金论文集4,第4期(2011):219-230。
- Dalvi,Nilesh,Ashwin Machanavajjhala和Bo Pang。“Web上的结构化数据分析。”VLDB捐赠学报5,NO.7 (2012):680–691.
- Gentile,Anna Lisa,Ziqi Zhang,Isabelle Augenstein和Fabio Ciravegna。“Unsupervised Wrapper Induction Using Linked Data”在第七届国际知识获取会议论文集,41-48,2013年。
- Weninger,蒂姆和韩佳伟。“探索Web上的结构和内容:半结构化Web的提取和集成。”在第六届ACM网络搜索和数据挖掘国际会议论文集,779-780,2013年。http://dl.acm.org/citation.cfm?id=2433499.