拥有与jQuery完全相同的DOM操作API
拥有通用的列表采集方案
拥有强大的HTTP请求套件,轻松实现如:模拟登陆、伪造浏览器、HTTP代理等意复杂的网络请求
拥有乱码解决方案
拥有强大的内容过滤功能...有mysql、mongodb、kafka、csv、excel、原文件下载共五种输出方式;
支持分批输出,且每批数量可控;
支持静态Go和动态JS两种采集规则,支持横纵向两种抓取模式,且有大量Demo;...增加了脚本控制台,可以通过输入各种各样的脚本,如AppleScript,ECMAScript,Python,JS去控制和访问Heritrix的基本组件运行情况(很有意思)....支持页面中的异步ajax请求
支持页面中的javascript变量抽取
利用Redis实现分布式抓取,参考gecco-redis
支持结合Spring开发业务逻辑,参考gecco-spring
支持...Distributed architecture, Crawl Javascript pages, Python 2.{6,7}, 3.{3,4,5,6} support, etc...