开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何从heritrix抓取中排除除text/html之外的所有内容？

从heritrix抓取中排除除text/html之外的所有内容，可以通过配置heritrix的过滤规则来实现。

具体步骤如下：

打开heritrix的配置文件，通常是crawler-beans.cxml或crawler-beans.cxml.gz。
在配置文件中找到<bean id="decideRules" class="org.archive.modules.deciderules.DecideRuleSequence">，这是决策规则的配置部分。
在<bean id="decideRules" class="org.archive.modules.deciderules.DecideRuleSequence">标签内部，找到<bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">，这是根据内容类型匹配的规则。
在<bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">标签内部，找到<property name="listLogicalOr" value="true"/>，将其改为false，表示后续的规则是与逻辑关系。
在<bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">标签内部，找到<property name="regexpList">，这是内容类型匹配的正则表达式列表。
在<property name="regexpList">标签内部，添加一个<value>标签，填入要排除的内容类型的正则表达式。例如，要排除所有非text/html类型的内容，可以添加<value>^(?!text/html).*$</value>。
保存配置文件并重新启动heritrix。

这样配置后，heritrix在抓取网页时会根据内容类型进行过滤，排除除text/html之外的所有内容。

注意：以上步骤是基于heritrix 3.x版本的配置，不同版本的heritrix可能有细微差别，请根据实际情况进行调整。

推荐的腾讯云相关产品：腾讯云CDN（内容分发网络），详情请参考腾讯云CDN产品介绍。

相关搜索:如何排除除特定css类之外的所有类？选择数组中除当前之外的所有内容删除括号中除#number之外的所有内容如何删除除img之外的所有html标签？选择除孩子之外的父母中的所有内容 Regex:如何排除除我自己的域之外的所有TLD 如何禁用除当前帧之外的所有其他内容？如何从html代码中抓取“标记”-text 如何从html代码中删除除表以外的所有内容如何删除PHP中除某些特定内容之外的所有标签？重用React组件中除render方法之外的所有内容子设置列表中除给定索引之外的所有内容(R)排除vscode中除特定文件名以外的所有内容 jQuery:如何隐藏div中除2个特定元素之外的所有内容从SQL中的数据库表中删除除前n之外的所有内容如何从抓取的html中获取所有项目？如何从UIActivityViewController中排除除%1以外的所有项？如何删除除某些特定元素之外的所有HTML正文元素如何删除SpriteKit中除forkey之外的所有操作？如何抓取以text/html格式返回的ajax的特定内容？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

服务器反爬虫攻略：ApacheNginxPHP禁止某些User Agent抓取网站

最近张戈发现 nginx 日志中出现了好多宜搜等垃圾的抓取记录，于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法，在给自己网做设置的同时，也给各位站长提供参考。...$ua) { header("Content-type: text/html; charset=utf-8"); die('请勿采集本站，因为采集的站长木有小JJ！')...Content-type: text/html; charset=utf-8"); die('请勿采集本站，因为采集的站长木有小JJ！')...UA 为空的抓取： curl -I -A '' zhangge.net 模拟百度蜘蛛的抓取： curl -I -A 'Baiduspider' zhangge.net 三次抓取结果截图如下： ?...因此，对于垃圾蜘蛛的收集，我们可以通过分析网站的访问日志，找出一些没见过的的蜘蛛（spider）名称，经过查询无误之后，可以将其加入到前文代码的禁止列表当中，起到禁止抓取的作用。

2.4K5 0

一步一步学lucene——（第一步：概念篇）

Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。...Aperture：Aperture这个Java框架能够从各种各样的资料系统(如：文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据...jcrawl：jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq。...它可以轻松地实现与其他语言的使用XML /简称JSON / HTML格式。有一个用户界面的所有业务，因此没有Java的编码是必要的。删除或更新记录的数据库可以同步。内容以外的数据库还可以进行搜查。...它是hibernate对著名的全文检索系统Lucene的一个集成方案，作用在于对数据表中某些内容庞大的字段（如声明为text的字段）建立全文索引，这样通过hibernate search就可以对这些字段进行全文检索后获得相应的

1.4K8 0

玩大数据一定用得到的18款Java开源Web爬虫

1 Heritrix Heritrix 是一个由 Java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。...Heritrix 是个“Archival Crawler”——来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒，不对页面进行内容上的修改。...它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流，通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。...Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。...，并通过配置文件注入的方式，基本上能实现对所有的网页都正确的解析和抓取。

2.1K4 1

【推荐收藏】33款可用来抓数据的开源爬虫软件工具

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。...Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。...授权协议： GPLv3 开发语言： Java 操作系统：跨平台特点：由守护进程执行，使用数据库存储网页信息 4、Heritrix Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源...代码托管：https://github.com/internetarchive/heritrix3 授权协议： Apache 开发语言： Java 操作系统：跨平台特点：严格遵照robots文件的排除指示和..., 支持text/html资源的获取.

4.7K5 0

【重磅】33款可用来抓数据的开源爬虫软件工具

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。...Arachnid Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web...Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。...授权协议： GPLv3 开发语言： Java 操作系统：跨平台特点：由守护进程执行，使用数据库存储网页信息 4、Heritrix Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源...代码托管：https://github.com/internetarchive/heritrix3 授权协议： Apache 开发语言： Java 操作系统：跨平台特点：严格遵照robots文件的排除指示和

4K5 1

服务器反爬虫攻略：ApacheNginxPHP禁止某些User Agent抓取网站

执行如下命令，平滑重启 nginx 即可： Shell /usr/local/nginx/sbin/nginx –s reload 三、PHP 代码将如下方法放到贴到网站入口文件 index.php 中的第一个...$ua) { header(“Content-type: text/html; charset=utf-8”); die(‘请勿采集本站，因为采集的站长木有小JJ！’)...; }else{ foreach($now_ua as $value ) //判断是否是数组中存在的UA if(eregi($value,$ua)) { header...(“Content-type: text/html; charset=utf-8”); die(‘请勿采集本站，因为采集的站长木有小JJ！’)... 模拟 UA 为空的抓取： Shell curl –I –A ” bizhi.bcoderss.com 模拟百度蜘蛛的抓取： Shell curl –I –A ‘Baiduspider’ bizhi.bcoderss.com

1.6K2 0

33款你可能不知道的开源爬虫软件工具

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。...Java爬虫 1.Arachnid Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流。...Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。...授权协议： GPLv3 开发语言： Java 操作系统：跨平台特点：由守护进程执行，使用数据库存储网页信息 4.Heritrix Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源...代码托管：https://github.com/internetarchive/heritrix3 授权协议： Apache 开发语言： Java 操作系统：跨平台特点：严格遵照robots文件的排除指示和

11.9K2 0

爬虫框架整理汇总

：源代码-→抽象语法树-→字节码-→JIT（JIT编译器）-→本地代码在V8引擎中，源代码先被解析器转变为抽象语法树(AST)，然后使用JIT编译器的全代码生成器从AST直接生成本地可执行代码。...WebMagic使用Jsoup作为HTML解析工具，并基于其开发了解析XPath的工具Xsoup。在这四个组件中，PageProcessor对于每个站点每个页面都不一样，是需要使用者定制的部分。...缺点： Nutch的爬虫定制能力比较弱 heritrix3 https://github.com/internetarchive/heritrix3 GitHub stars = 1192 特点能够同时运行多个抓取任务...增强了扩展性.以前的版本,如果有千万级以上的种子都会先载入内存,如此有可能使得超过分配给Heritrix的内存导致内存溢出.Heririx3.0则解决了这个问题.允许这种大规模抓取....支持页面中的异步ajax请求支持页面中的javascript变量抽取利用Redis实现分布式抓取,参考gecco-redis 支持结合Spring开发业务逻辑,参考gecco-spring 支持

2.4K6 0

提问：Heritrix应用问题

Heritrix应用问题请教一下大家如何用heritrix抓取以下网站内容，需要定制么？...下面是USPTO的专利网页：http://patft.uspto.gov/netacgi/nph-Parser?...=45309&Srch1=%28%28battery+OR+motor%29+AND+automobile%29&NextList1=Next+50+Hits其中NextList1表示第一个50条信息的页面...，NextList2，NextList3，以此类推，在这些页面中点击每条超链接得到的是针对此条专利信息的具体页面，那么现在我如何设置heritrix，可以抓取到每页50条，一共几万条的这些具体专利信息页面到本地呢...另外可否抓取的同时将html格式转换伪txt格式到本地？谢谢高手指点！

4644 0

【说站】nginx宝塔面板如何屏蔽垃圾蜘蛛禁止抓取不影响火车头发布

最近查看服务器日志，发现一些垃圾蜘蛛，一直爬行很多，比如以下这些垃圾，太烦人了，就想着如何屏蔽这些垃圾蜘蛛，但是想着不影响火车头的发布。查了一些资料，下面把技巧分享给大家。...Mozilla/5.0 (compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)"Mozilla/5.0 (compatible; ...#禁止Scrapy等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {return 403;}#禁止指定UA及UA为空的访问if ($http_user_agent...如果想使用火车头采集发布，请使用下面的代码 #禁止Scrapy等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {return 403;}#...|Bytespider|Ezooms|Googlebot|JikeSpider|SemrushBot" ) {return 403; }#禁止非GET|HEAD|POST方式的抓取

3.4K4 0

反爬虫攻略：ApacheNginxPHP禁止某些User Agent抓取网站

~ ^(GET|HEAD|POST)$) { return 403; } 然后，在网站相关配置中的 location / { 之后插入如下代码： include agent_deny.conf;...$ua) { header("Content-type: text/html; charset=utf-8"); die('请勿采集本站，因为采集的站长木有小JJ！')...; }else{ foreach($now_ua as $value ) //判断是否是数组中存在的UA if(eregi($value,$ua)) { header("Content-type: text.../html; charset=utf-8"); die('请勿采集本站，因为采集的站长木有小JJ！')...; } } 四、测试效果如果是vps，那非常简单，使用curl -A 模拟抓取即可，比如：模拟宜搜蜘蛛抓取： curl -I -A 'YisouSpider' zhang.ge 模拟UA为空的抓取

2K1 0

Lucene 入门教程

包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。计算机信息化系统中的数据分为结构化数据和非结构化数据。...1、绿色表示索引过程，对要搜索的原始内容进行索引构建一个索引库，索引过程包括：确定原始内容即要搜索的内容-->采集文档-->创建文档-->分析文档-->索引文档 2、红色表示搜索过程，从索引库中搜索内容...，搜索过程包括：用户通过搜索界面-->创建查询-->执行搜索，从索引库搜索-->渲染搜索结果 2.2 创建索引对文档索引的过程，将用户要搜索的文档内容进行索引，索引存储在索引库（index）中。...jsoup（http://jsoup.org/ ），jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。...heritrix（http://sourceforge.net/projects/archive-crawler/files/），Heritrix 是一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源

8192 0

利用nginx来屏蔽指定的user_agent的访问以及根据user_agent做跳转

: nginx Date: Mon, 09 Feb 2015 03:37:20 GMT Content-Type: text/html; charset=UTF-8 Connection: keep-alive...中的蜘蛛进行增加、删除或者修改。...当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面...百度官方建议，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。...（在正式环境中，可以适当允许搜索引擎抓取收录） -----------------------------------------------------------------------------

5.7K5 1

教你如何编写第一个爬虫

1 Robots协议 Robots协议（爬虫协议）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取...因此，当你在百度搜索“淘宝”的时候，搜索结果下方的小字会出现：“由于该网站的robots.txt文件存在限制指令（限制搜索引擎抓取），系统无法提供该页面的内容描述”，如图所示。...) #r.text是获取的网页内容代码上述代码就能获取博客首页的HTML代码，HTML是用来描述网页的一种语言，也就是说网页呈现的内容背后都是HTML代码。...对初学者来说，使用BeautifulSoup从网页中提取需要的数据更加简单易用。那么，我们怎么从那么长的代码中准确找到标题的位置呢？这里就要隆重介绍Chrome浏览器的“检查（审查元素）”功能了。...暂时没学会也没关系，你可以慢慢学哦~以上内容自《Python网络爬虫从入门到实践（第2版）》【文末有福利】往下拉！

1.2K2 0

Linux三剑客命令之Grep

-A #除了显示符合范本样式的那一行之外，并显示该行之后的内容 -b #在显示符合范本样式的那一行之外，并显示该行之前的内容 -B #除了显示符合样式的那一行之外，并显示该行之前的内容 -c...： grep "file" file_1 file_2 file_3 2、输出除之外的所有行 -v 选项： grep -v "file" file_name 3、标记匹配颜色 --color=auto...cat patfile aaa bbb echo aaa bbb ccc ddd eee | grep -f patfile -o 14、在grep搜索结果中包括或者排除指定文件：只在目录中所有的.php...和.html文件中递归搜索字符"main()" grep "main()" ....{php,html} 15、在搜索结果中排除所有README文件 grep "main()" .

7831 0

每天学一个 Linux 命令（5）：grep

-b #在显示符合范本样式的那一行之外，并显示该行之前的内容 -B #除了显示符合样式的那一行之外，并显示该行之前的内容 -c #计算符合范本样式的列数 -C #除了显示符合范本样式的那一列之外...正则表达式 ^ #匹配以XX开头的行 $ #匹配以XX结尾的行常用实例 1、在多个文件中查找： grep "file" file_1 file_2 file_3 2、输出除之外的所有行 -...cat patfile aaa bbb echo aaa bbb ccc ddd eee | grep -f patfile -o 14、在grep搜索结果中包括或者排除指定文件：只在目录中所有的....php和.html文件中递归搜索字符"main()" grep "main()" ....{php,html} 15、在搜索结果中排除所有README文件 grep "main()" .

8271 0

网络爬虫之Windows环境Heritrix3.0配置指南

记得上一次碰爬虫还是5年前，时过境迁，不知道爬虫的世界里是否有了新的崛起。比较过一些之后，初步认定Heritrix基本能够满足需要，当然肯定是需要定制的了。...二、版本选择　　Heritrix当前版本3.1.0，安装后发现，启动任务时，Windows平台有BDBOpen的错误（具体原因不详），Linux环境没有测试。...度娘了一把，没啥实质性收获，如果从源码去看，又太费时间。就换到了3.0.5，这个版本也有问题，就是创建Job时，总是提示文件夹有问题，可以选择手动创建下载任务。操作界面如下图所示： ?...format 2 # http://java.sun.com/javase/6/docs/api/java/util/Properties.html#load%28java.io.Reader%29...2.自动解析改造：下载内容自动解析到指定目录，指定格式。

6152 0

Shell三大利器之grep

-A 除了显示符合范本样式的那一行之外，并显示该行之后的内容。 -b 在显示符合范本样式的那一行之外，并显示该行之前的内容。 -c 计算符合范本样式的列数。...-C或- 除了显示符合范本样式的那一列之外，并显示该列之前后的内容。...输出除之外的所有行 -v选项： grep -v "str" file_name 标记匹配颜色 --color=auto 选项： grep "str" file_name --color=auto 使用正则表达式...| grep -b -o "not" 7:not #一行中字符串的字符偏移是从该行的第一个字符开始计算，起始值为0。...{php,html} #在搜索结果中排除所有README文件 grep "main()" .

1.2K0 0

linux命令-grep

输出除之外的所有行 -v 选项： grep -v "match_pattern" file_name 标记匹配颜色 –color=auto 选项： grep "match_pattern" file_name...| grep -b -o "not" 7:not #一行中字符串的字符便宜是从该行的第一个字符开始计算，起始值为0。...cat patfile aaa bbb echo aaa bbb ccc ddd eee | grep -f patfile -o 在grep搜索结果中包括或者排除指定文件： #只在目录中所有的.php...和.html文件中递归搜索字符"main()" grep "main()" ....{php,html} #在搜索结果中排除所有README文件 grep "main()" .

9.5K2 0

网络爬虫

网络爬虫相关的几项重要策略：选择策略：哪些网页是需要被抓取的；重访问策略：怎样的方式去检测网页是否被修改过；礼貌性策略：抓取网页的时候，需要方式网站过载；并行化策略：怎样组织分布式的网络爬虫。...对于爬虫来说，越深的链接往往价值越小。在大多数情况下，我们不需要所有的信息，这时候需要控制合理的网页深度，价值高的网站可以深度适当大一些。...HTML、RSS、PDF……这些只是不同的数据格式而已，和内容无关，获取这些不同格式不同地址数据的组件可以叫做 requester； XPATH、CSSPath……这些是针对不同数据，去解析这些数据，指定有用信息的路径表达式...管理若干个线程（或进程）根据 configuration 去爬取数据了；数据爬取完成后持久化到存储组件 storage 中。...Java 有名的开源网络爬虫包括 Heritrix 和 Nutch，后续我再详细介绍一下。

6592 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭