首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何从同一网站的多个网页中发现公共信息块?

如何从同一网站的多个网页中发现公共信息块?
EN

Stack Overflow用户
提问于 2015-05-29 16:33:24
回答 1查看 36关注 0票数 0

这是网络爬虫中的一个模式识别任务。传统的爬虫获取整个页面的数据。如果有任何方法可以让爬虫变得有点智能,就像只是识别和捕获信息部分。

EN

回答 1

Stack Overflow用户

发布于 2015-05-29 18:42:54

这是一个称为包装器归纳web数据提取的研究问题。我不知道有没有这样的库,但有很多研究论文(参见下面的优秀论文列表)和一些研究项目,如DIADEM (他们的网站也包含出版物列表)。

  • Muslea,Ion,Steven Minton和Craig A. Knoblock。“Hierarchical Wrapper Induction for Semistructured Information Sources”自主代理和多代理系统4,第1-2期(2001):93-114。
  • Dalvi,Nilesh,Ravi Kumar和穆罕默德·索利曼。“Automatic Wrappers for Large Scale Web Extraction.”VLDB捐赠基金论文集4,第4期(2011):219-230。
  • Dalvi,Nilesh,Ashwin Machanavajjhala和Bo Pang。“Web上的结构化数据分析。”VLDB捐赠学报5,NO.7 (2012):680–691.
  • Gentile,Anna Lisa,Ziqi Zhang,Isabelle Augenstein和Fabio Ciravegna。“Unsupervised Wrapper Induction Using Linked Data”在第七届国际知识获取会议论文集,41-48,2013年。
  • Weninger,蒂姆和韩佳伟。“探索Web上的结构和内容:半结构化Web的提取和集成。”在第六届ACM网络搜索和数据挖掘国际会议论文集,779-780,2013年。http://dl.acm.org/citation.cfm?id=2433499.
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30524874

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档