Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息,提取出目标信息(如正文内容、发布时间)的 Java 库。...授权协议:Apache 开发语言:Java 操作系统:跨平台 Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息,提取出目标信息(如正文内容、发布时间)的 Java 库。...Boilerpipe 的包结构: boilerpipe,根目录 document,文档包,定义了 boilerpipe 所处理文档数据类型,主要包括 TextDocument 和 TextBlock
经过我的一番调研,目前发现有这么几种算法或者服务对页面的智能化解析做的比较好: Diffbot,国外的一家专门来做智能化解析服务的公司,https://www.diffbot.com Boilerpipe...,Java 语言编写的一个页面解析算法,https://github.com/kohlschutter/boilerpipe Embedly,提供页面解析服务的公司,https://embed.ly/extract...其结果对比如下: Service/Software Precision Recall F1-Score Diffbot 0.968 0.978 0.971 Boilerpipe 0.893 0.924...另外接下来比较厉害的就是 Boilerpipe 和 Readability,Goose 的表现则非常差,F1 跟其他的算法差了一大截。下面是几个算法的 F1 分数对比情况: ?
4、除了 goose 外,还有其他的正文提取库可以尝试,比如 python-boilerpipe、python-readability 等。
技术:自然语言工具包Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais。 机器学习: “机器学习系统根据数据作出自动化决策。
除了 goose 外,还有其他的正文提取库可以尝试,比如 python-boilerpipe、python-readability 等。
技术: 自然语言工具包Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais。 机器学习:“机 器学习系统根据数据作出自动化决策。
Lucene、ElasticSearch、Datameer、Bigsheets、TinkerpopNLP自然语言处- 理:Natural Language Toolkit、Apache OpenNLP、Boilerpipe
技术: 自然语言工具包Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais。 机器学习 :“机器学习系统根据数据作出自动化决策。
Lucene、ElasticSearch、Datameer、Bigsheets、TinkerpopNLP自然语言处理:Natural Language Toolkit、Apache OpenNLP、Boilerpipe
领取专属 10元无门槛券
手把手带您无忧上云