前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >搜索引擎爬虫工具

搜索引擎爬虫工具

作者头像
用户1467662
发布2019-04-19 16:29:24
1.3K0
发布2019-04-19 16:29:24
举报
文章被收录于专栏:农夫安全农夫安全农夫安全

1.Introduction:

EngineCrawler 主要用于在linux系统上,抓取国内外主流搜索引擎搜索返回的url内容,相比之下,windows的搜索引擎爬虫工具就非常多,但我本机是kali,用不了windows软件,只好自己简单写一个小工具啦,写这个小工具的原因是自己在给厂商做测试的时候,发现了一个web应用程序的通用型漏洞,现在需要根据url的特征值来采集大量的url,然后批量进行测试,手动复制粘贴url各种累,这时候这个小工具就能够派上大用场啦~

工具使用多进程并发用于提高网页抓取的效率,可以自定义模块添加到工具中,目前支持以下的搜索引擎: baidu,google,yahoo,ecosia,teoma,360,hotbot,支持直接使用百度或者谷歌的高级搜索语法来进行搜索,谷歌搜索引擎不需要访问外国网站,抓取的数据是我自己搭建的谷歌镜像站......

2.Dependencies:

pip -r install requirements.txt

3.Usage:

OPTIONS:

-h, --help show this help message and exit

-r RULE, --rule RULE Engine advanced search rules

-p PAGE, --page PAGE The number of pages returned by the search engine

-e ENGINES, --engines ENGINES

Specify a comma-separated list of search engines

-o OUTPUT, --output OUTPUT

Save the results to text file

Example: python EngineCrawler.py -e baidu,yahoo -r 'inurl:php?id=1' -p 10 -o urls.txt

4.Screenshot:

代码如有不足之处,还请多多指正~

github项目地址:https://github.com/heroanswer/EngineCrawler

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 网络安全社区悦信安 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档