搜索引擎爬虫工具

用户1467662

发布于 2019-04-19 16:29:24

1.5K0

1.Introduction:

EngineCrawler 主要用于在linux系统上，抓取国内外主流搜索引擎搜索返回的url内容，相比之下，windows的搜索引擎爬虫工具就非常多，但我本机是kali，用不了windows软件，只好自己简单写一个小工具啦，写这个小工具的原因是自己在给厂商做测试的时候，发现了一个web应用程序的通用型漏洞，现在需要根据url的特征值来采集大量的url，然后批量进行测试，手动复制粘贴url各种累，这时候这个小工具就能够派上大用场啦～

工具使用多进程并发用于提高网页抓取的效率，可以自定义模块添加到工具中，目前支持以下的搜索引擎： baidu，google，yahoo，ecosia，teoma，360，hotbot，支持直接使用百度或者谷歌的高级搜索语法来进行搜索，谷歌搜索引擎不需要访问外国网站，抓取的数据是我自己搭建的谷歌镜像站......

2.Dependencies:

pip -r install requirements.txt

3.Usage:

OPTIONS:

-h, --help show this help message and exit

-r RULE, --rule RULE Engine advanced search rules

-p PAGE, --page PAGE The number of pages returned by the search engine

-e ENGINES, --engines ENGINES

Specify a comma-separated list of search engines

-o OUTPUT, --output OUTPUT

Save the results to text file

Example: python EngineCrawler.py -e baidu,yahoo -r 'inurl:php?id=1' -p 10 -o urls.txt