1.Introduction:
EngineCrawler 主要用于在linux系统上,抓取国内外主流搜索引擎搜索返回的url内容,相比之下,windows的搜索引擎爬虫工具就非常多,但我本机是kali,用不了windows软件,只好自己简单写一个小工具啦,写这个小工具的原因是自己在给厂商做测试的时候,发现了一个web应用程序的通用型漏洞,现在需要根据url的特征值来采集大量的url,然后批量进行测试,手动复制粘贴url各种累,这时候这个小工具就能够派上大用场啦~
工具使用多进程并发用于提高网页抓取的效率,可以自定义模块添加到工具中,目前支持以下的搜索引擎: baidu,google,yahoo,ecosia,teoma,360,hotbot,支持直接使用百度或者谷歌的高级搜索语法来进行搜索,谷歌搜索引擎不需要访问外国网站,抓取的数据是我自己搭建的谷歌镜像站......
2.Dependencies:
pip -r install requirements.txt
3.Usage:
OPTIONS:
-h, --help show this help message and exit
-r RULE, --rule RULE Engine advanced search rules
-p PAGE, --page PAGE The number of pages returned by the search engine
-e ENGINES, --engines ENGINES
Specify a comma-separated list of search engines
-o OUTPUT, --output OUTPUT
Save the results to text file
Example: python EngineCrawler.py -e baidu,yahoo -r 'inurl:php?id=1' -p 10 -o urls.txt
4.Screenshot:
代码如有不足之处,还请多多指正~
github项目地址:https://github.com/heroanswer/EngineCrawler