如何从heritrix抓取中排除除text/html之外的所有内容？

从heritrix抓取中排除除text/html之外的所有内容，可以通过配置heritrix的过滤规则来实现。

具体步骤如下：

打开heritrix的配置文件，通常是crawler-beans.cxml或crawler-beans.cxml.gz。
在配置文件中找到<bean id="decideRules" class="org.archive.modules.deciderules.DecideRuleSequence">，这是决策规则的配置部分。
在<bean id="decideRules" class="org.archive.modules.deciderules.DecideRuleSequence">标签内部，找到<bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">，这是根据内容类型匹配的规则。
在<bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">标签内部，找到<property name="listLogicalOr" value="true"/>，将其改为false，表示后续的规则是与逻辑关系。
在<bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">标签内部，找到<property name="regexpList">，这是内容类型匹配的正则表达式列表。
在<property name="regexpList">标签内部，添加一个<value>标签，填入要排除的内容类型的正则表达式。例如，要排除所有非text/html类型的内容，可以添加<value>^(?!text/html).*$</value>。
保存配置文件并重新启动heritrix。