HTML 正文内容提取库 Boilerpipe

Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息,提取出目标信息(如正文内容、发布时间)的 Java 库。

授权协议:Apache

开发语言:Java

操作系统:跨平台

Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息,提取出目标信息(如正文内容、发布时间)的 Java 库。其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息。

Boilerpipe 的包结构:

boilerpipe,根目录

document,文档包,定义了 boilerpipe 所处理文档数据类型,主要包括 TextDocument 和 TextBlock 。一个 TextDocument 即一个网页,由多个 TextBlock 构成。

lables,标签,每个 TextBlock 都有一个 lable 字段,表示该 TextBlock 的属性(如是不是正文)。

filters,过滤器,定义了多个过滤器,过滤器的作用即对 TextBlock 进行过滤,使用机器学习、统计、启发式方法等数据挖掘算法判断哪些 TextBlock 是所需要的(正文段),给 TextBlock 加上 lable ,去除无关的 TextBlock 。

sax,SAX 解析器,定义了从各种来源获取并解析网页的方法。

extractors,提取器,提取流程的入口。每个 extractor 都定义了自己的提取方法,通过调用不同的 filter 达到不同的处理效果。

conditions,条件判断,判断一个 TextBlock 是否满足特定的条件。

estimators,评估器,评估一个 extractor 对特定 document 的提取效果。

调用关系图示:

介绍内容摘自:CSDN

本文来自企鹅号 - 开源中国媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏枕边书

分布算法之一致性哈希算法

在进行大型网站的web开发时,分布式这个词经常出现在我们面前。如: memcache、redis服务器等缓存服务器的负载均衡(分布式cache), MySQL的...

27590
来自专栏AI科技评论

开发 | GitHub项目推荐 : 用于对机器学习模型进行对抗性攻击、防御和基准测试的Python库

此资料库包含CleverHans的源代码,CleverHans是一个Python库,用于将机器学习系统中的漏洞与对抗性示例进行对比。 您可以在随附的博客上了解有...

14520
来自专栏瓜大三哥

串口通信控制器的Verilog HDL实现(四) 接收模块的Verilog HDL 实现

但凡涉及到双方通信的系统,接收机的复杂度往往都是高于发送机的,对于串口通信系统也如此。在接收系统中,起始状态和数据都需要依靠接收端检测得到,为了避免毛刺影响,...

24650
来自专栏散尽浮华

基于Nginx+Keepalived的LB服务监控(邮件报警)

IDC两台机器上部署了Nginx+Keepalived主从模式的LB代理负载层,现在需要对LB进行每日巡检和服务监控,利用SendEmail邮件监控。

21030
来自专栏自然语言处理

深度学习环境搭建

本文作者的专题《目标检测》链接:https://www.jianshu.com/c/fd1d6f784c1f 此专题的宗旨是让基础较为薄弱的新手能够顺利实现目标...

55310
来自专栏AI研习社

GitHub项目推荐 | 用于对机器学习模型进行对抗性攻击、防御和基准测试的Python库:CleverHans 3.0.0

项目地址:https://github.com/tensorflow/cleverhans

52560
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 18 - TensorFlow 1.3.0安装手记

《TensorFlow从0到1》写到现在,TensorFlow的版本也从当时的1.1.0迭代到了8月初发布的1.3.0。可以预见在未来很长一段时间里,它仍会持...

37060
来自专栏Hadoop实操

Hadoop之上的模型部署 - CDSW1.4新功能模块

CDSW1.4提供了一个新的模型模块,可以让数据科学家通过REST API的方式来构建,部署和管理模型,从而提供预测。如下图所示,这个功能可以帮助数据科学家实现...

14820
来自专栏SDNLAB

基于网络流量的SDN最短路径转发应用

网络的转发是通信的基本功能,其完成信息在网络中传递,实现有序的数据交换。通过SDN控制器的集中控制,可以轻松实现基础的转发算法有二层MAC学习转发和基于跳数的最...

509100
来自专栏一枝花算不算浪漫

集群扩容的常规解决:一致性hash算法

20320

扫码关注云+社区

领取腾讯云代金券