首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何从heritrix抓取中排除除text/html之外的所有内容?

从heritrix抓取中排除除text/html之外的所有内容,可以通过配置heritrix的过滤规则来实现。

具体步骤如下:

  1. 打开heritrix的配置文件,通常是crawler-beans.cxmlcrawler-beans.cxml.gz
  2. 在配置文件中找到<bean id="decideRules" class="org.archive.modules.deciderules.DecideRuleSequence">,这是决策规则的配置部分。
  3. <bean id="decideRules" class="org.archive.modules.deciderules.DecideRuleSequence">标签内部,找到<bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">,这是根据内容类型匹配的规则。
  4. <bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">标签内部,找到<property name="listLogicalOr" value="true"/>,将其改为false,表示后续的规则是与逻辑关系。
  5. <bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">标签内部,找到<property name="regexpList">,这是内容类型匹配的正则表达式列表。
  6. <property name="regexpList">标签内部,添加一个<value>标签,填入要排除的内容类型的正则表达式。例如,要排除所有非text/html类型的内容,可以添加<value>^(?!text/html).*$</value>
  7. 保存配置文件并重新启动heritrix。

这样配置后,heritrix在抓取网页时会根据内容类型进行过滤,排除除text/html之外的所有内容。

注意:以上步骤是基于heritrix 3.x版本的配置,不同版本的heritrix可能有细微差别,请根据实际情况进行调整。

推荐的腾讯云相关产品:腾讯云CDN(内容分发网络),详情请参考腾讯云CDN产品介绍

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

服务器反爬虫攻略:ApacheNginxPHP禁止某些User Agent抓取网站

最近张戈发现 nginx 日志中出现了好多宜搜等垃圾的抓取记录,于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法,在给自己网做设置的同时,也给各位站长提供参考。...$ua) {     header("Content-type: text/html; charset=utf-8");     die('请勿采集本站,因为采集的站长木有小JJ!')...Content-type: text/html; charset=utf-8");         die('请勿采集本站,因为采集的站长木有小JJ!')...UA 为空的抓取: curl -I -A '' zhangge.net 模拟百度蜘蛛的抓取: curl -I -A 'Baiduspider' zhangge.net 三次抓取结果截图如下: ?...因此,对于垃圾蜘蛛的收集,我们可以通过分析网站的访问日志,找出一些没见过的的蜘蛛(spider)名称,经过查询无误之后,可以将其加入到前文代码的禁止列表当中,起到禁止抓取的作用。

2.4K50

一步一步学lucene——(第一步:概念篇)

Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。...Aperture:Aperture这个Java框架能够从各种各样的资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据...jcrawl:jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq。...它可以轻松地实现与其他语言的使用XML /简称JSON / HTML格式。有一个用户界面的所有业务,因此没有Java的编码是必要的。删除或更新记录的数据库可以同步。内容以外的数据库还可以进行搜查。...它是hibernate对著名的全文检索系统Lucene的一个集成方案,作用在于对数据表中某些内容庞大的字段(如声明为text的字段)建立全文索引,这样通过hibernate search就可以对这些字段进行全文检索后获得相应的

1.4K80
  • 玩大数据一定用得到的18款Java开源Web爬虫

    1 Heritrix Heritrix 是一个由 Java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。...Heritrix 是个“Archival Crawler”——来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。...它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流,通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。...Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。...,并通过配置文件注入的方式,基本上能实现对所有的网页都正确的解析和抓取。

    2.1K41

    【推荐收藏】33款可用来抓数据的开源爬虫软件工具

    传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。...Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。...授权协议: GPLv3 开发语言: Java 操作系统: 跨平台 特点:由守护进程执行,使用数据库存储网页信息 4、Heritrix Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源...代码托管:https://github.com/internetarchive/heritrix3 授权协议: Apache 开发语言: Java 操作系统: 跨平台 特点:严格遵照robots文件的排除指示和..., 支持text/html资源的获取.

    4.7K50

    【重磅】33款可用来抓数据的开源爬虫软件工具

    传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。...Arachnid Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web...Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。...授权协议: GPLv3 开发语言: Java 操作系统: 跨平台 特点:由守护进程执行,使用数据库存储网页信息 4、Heritrix Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源...代码托管:https://github.com/internetarchive/heritrix3 授权协议: Apache 开发语言: Java 操作系统: 跨平台 特点:严格遵照robots文件的排除指示和

    4K51

    服务器反爬虫攻略:ApacheNginxPHP禁止某些User Agent抓取网站

    执行如下命令,平滑重启 nginx 即可: Shell /usr/local/nginx/sbin/nginx –s reload  三、PHP 代码 将如下方法放到贴到网站入口文件 index.php 中的第一个...$ua) {      header(“Content-type: text/html; charset=utf-8”);      die(‘请勿采集本站,因为采集的站长木有小JJ!’)...;  }else{      foreach($now_ua as $value )  //判断是否是数组中存在的UA      if(eregi($value,$ua)) {          header...(“Content-type: text/html; charset=utf-8”);          die(‘请勿采集本站,因为采集的站长木有小JJ!’)...  模拟 UA 为空的抓取: Shell curl –I –A ” bizhi.bcoderss.com  模拟百度蜘蛛的抓取: Shell curl –I –A ‘Baiduspider’ bizhi.bcoderss.com

    1.6K20

    33款你可能不知道的开源爬虫软件工具

    传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。...Java爬虫 1.Arachnid Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流。...Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。...授权协议: GPLv3 开发语言: Java 操作系统: 跨平台 特点:由守护进程执行,使用数据库存储网页信息 4.Heritrix Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源...代码托管:https://github.com/internetarchive/heritrix3 授权协议: Apache 开发语言: Java 操作系统: 跨平台 特点:严格遵照robots文件的排除指示和

    11.9K20

    爬虫框架整理汇总

    :源代码-→抽象语法树-→字节码-→JIT(JIT编译器)-→本地代码 在V8引擎中,源代码先被解析器转变为抽象语法树(AST),然后使用JIT编译器的全代码生成器从AST直接生成本地可执行代码。...WebMagic使用Jsoup作为HTML解析工具,并基于其开发了解析XPath的工具Xsoup。 在这四个组件中,PageProcessor对于每个站点每个页面都不一样,是需要使用者定制的部分。...缺点: Nutch的爬虫定制能力比较弱 heritrix3 https://github.com/internetarchive/heritrix3 GitHub stars = 1192 特点 能够同时运行多个抓取任务...增强了扩展性.以前的版本,如果有千万级以上的种子都会先载入内存,如此有可能使得超过分配给Heritrix的内存导致内存溢出.Heririx3.0则解决了这个问题.允许这种大规模抓取....支持页面中的异步ajax请求 支持页面中的javascript变量抽取 利用Redis实现分布式抓取,参考gecco-redis 支持结合Spring开发业务逻辑,参考gecco-spring 支持

    2.4K60

    【说站】nginx宝塔面板如何屏蔽垃圾蜘蛛禁止抓取不影响火车头发布

    最近查看服务器日志,发现一些垃圾蜘蛛,一直爬行很多,比如以下这些垃圾,太烦人了,就想着如何屏蔽这些垃圾蜘蛛,但是想着不影响火车头的发布。查了一些资料,下面把技巧分享给大家。...Mozilla/5.0 (compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)"Mozilla/5.0 (compatible; ...#禁止Scrapy等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {return 403;}#禁止指定UA及UA为空的访问if ($http_user_agent...如果想使用火车头采集发布,请使用下面的代码 #禁止Scrapy等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {return 403;}#...|Bytespider|Ezooms|Googlebot|JikeSpider|SemrushBot" ) {return 403;             }#禁止非GET|HEAD|POST方式的抓取

    3.4K40

    Lucene 入门教程

    包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。 计算机信息化系统中的数据分为结构化数据和非结构化数据。...1、绿色表示索引过程,对要搜索的原始内容进行索引构建一个索引库,索引过程包括: 确定原始内容即要搜索的内容-->采集文档-->创建文档-->分析文档-->索引文档 2、红色表示搜索过程,从索引库中搜索内容...,搜索过程包括: 用户通过搜索界面-->创建查询-->执行搜索,从索引库搜索-->渲染搜索结果 2.2 创建索引 对文档索引的过程,将用户要搜索的文档内容进行索引,索引存储在索引库(index)中。...jsoup(http://jsoup.org/ ),jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。...heritrix(http://sourceforge.net/projects/archive-crawler/files/),Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源

    81920

    利用nginx来屏蔽指定的user_agent的访问以及根据user_agent做跳转

    : nginx Date: Mon, 09 Feb 2015 03:37:20 GMT Content-Type: text/html; charset=UTF-8 Connection: keep-alive...中的蜘蛛进行增加、删除或者修改。...当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面...百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。...(在正式环境中,可以适当允许搜索引擎抓取收录) -----------------------------------------------------------------------------

    5.7K51

    教你如何编写第一个爬虫

    1 Robots协议 Robots协议(爬虫协议)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取...因此,当你在百度搜索“淘宝”的时候,搜索结果下方的小字会出现:“由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述”,如图所示。...) #r.text是获取的网页内容代码 上述代码就能获取博客首页的HTML代码,HTML是用来描述网页的一种语言,也就是说网页呈现的内容背后都是HTML代码。...对初学者来说,使用BeautifulSoup从网页中提取需要的数据更加简单易用。 那么,我们怎么从那么长的代码中准确找到标题的位置呢? 这里就要隆重介绍Chrome浏览器的“检查(审查元素)”功能了。...暂时没学会也没关系,你可以慢慢学哦~以上内容自《Python网络爬虫从入门到实践(第2版)》【文末有福利】往下拉!

    1.2K20

    网络爬虫之Windows环境Heritrix3.0配置指南

    记得上一次碰爬虫还是5年前,时过境迁,不知道爬虫的世界里是否有了新的崛起。比较过一些之后,初步认定Heritrix基本能够满足需要,当然肯定是需要定制的了。...二、版本选择   Heritrix当前版本3.1.0,安装后发现,启动任务时,Windows平台有BDBOpen的错误(具体原因不详),Linux环境没有测试。...度娘了一把,没啥实质性收获,如果从源码去看,又太费时间。就换到了3.0.5,这个版本也有问题,就是创建Job时,总是提示文件夹有问题,可以选择手动创建下载任务。操作界面如下图所示: ?...format 2 # http://java.sun.com/javase/6/docs/api/java/util/Properties.html#load%28java.io.Reader%29...2.自动解析改造:下载内容自动解析到指定目录,指定格式。

    61520

    网络爬虫

    网络爬虫相关的几项重要策略: 选择策略:哪些网页是需要被抓取的; 重访问策略:怎样的方式去检测网页是否被修改过; 礼貌性策略:抓取网页的时候,需要方式网站过载; 并行化策略:怎样组织分布式的网络爬虫。...对于爬虫来说,越深的链接往往价值越小。在大多数情况下,我们不需要所有的信息,这时候需要控制合理的网页深度,价值高的网站可以深度适当大一些。...HTML、RSS、PDF……这些只是不同的数据格式而已,和内容无关,获取这些不同格式不同地址数据的组件可以叫做 requester; XPATH、CSSPath……这些是针对不同数据,去解析这些数据,指定有用信息的路径表达式...管理若干个线程(或进程)根据 configuration 去爬取数据了; 数据爬取完成后持久化到存储组件 storage 中。...Java 有名的开源网络爬虫包括 Heritrix 和 Nutch,后续我再详细介绍一下。

    65920
    领券