前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >URL采集器-关键词采集

URL采集器-关键词采集

原创
作者头像
小胡爱学习
发布2022-10-24 11:33:07
1.3K1
发布2022-10-24 11:33:07
举报
文章被收录于专栏:msraymsray

URL采集器-关键词采集

Msray-plus,是一款采用GO语言开发的企业级综合性爬虫/采集软件。

关键词:搜索引擎结果采集、域名采集、URL采集、网址采集、全网域名采集、CMS采集、联系信息采集

支持亿级数据存储、导入、重复判断等。无需使用复杂的命令,提供本地WEB管理后台对软件进行相关操作,功能强大且简单易上手!

1:可从国内外多个搜索引擎批量采集用户导入的关键词对应的搜索结果(SERP数据),并进行结构化数据存储与自定义过滤处理;

2:可从用户提供的url种子地址,源源不断的自动爬取全网网站数据,并进行结构化数据存储与自定义过滤处理;

3:可从用户提供的网站列表数据中,全自动的提取出网站联系方式信息,包括但不限于邮箱、手机/电话、QQ、微信、facebook、twitter等。

同时支持存储域名、根网址、网址(url)、IP、IP所属国家、标题、描述、访问状态等多种数据,主要运用于全网域名/网址/采集、行业市场研究分析、指定类型网站采集与分析、网络推广分析以及为各种大数据分析等提供数据支撑。

首页.png
首页.png

系统优势:

  1. 采用GO语言开发(企业级项目标准)。跨平台,可完美运行在ubuntu、centos、windows、mac等系统;
  2. 搜索引擎结果(SERP数据)采集,支持多搜索引擎并行式采集+每个引擎多线程搜索,效率高;
  3. 支持国内外多个知名搜索引擎,可突破安全验证! 包括但不限于百度(电脑端+移动端)、谷歌(google)、必应(bing)、神马、yandex、Qwant等;
  4. 采用B/S架构,自带WEB管理后台可远程访问!无需使用命令,方便上手与降低使用难度。
  5. 支持按任务细粒度自定义,自定义开启与关闭指定的搜索引擎,自定义线程数等;
  6. 采集效率高,日采集百万/千万级不重复无压力;
  7. 系统资源占用小,CPU和内存压力超小;
  8. 可智能识别结果中的泛域名站群,并自动加入黑名单,防止大量同一域名的子二级域名;
  9. 使用简单便捷,无需技术经验也可以快速上手使用;
  10. 支持无限采集,支持搜索引擎相似搜索词的自动抓取与自动化扩展添加种子关键词;
  11. 高效的全自动结果防重复功能(100%无重复);
  12. 超全面的多种过滤方案支持,比如按域名级别、按标题、按内容、按国家、按域名后缀等等;
  13. 可保存域名、根网址、网址(url)、IP、IP所属国家、标题、描述等多种数据;
  14. 全面的数据导出功能,支持按任务定制多种格式数据导出,也支持按时间(比如按天)导出所有结果,甚至无需人工导出自动生成记录保存到本地;
  15. 支持数据实时推送功能接口,可自定义接收数据的HTTP接口地址,方便扩展开发与对数据进行自定义二次处理,比如联动其他软件;
  16. 不定期更新其他扩展功能,如"同服务器IP网站查询"功能,可免费使用。
  17. 完善的在线说明文档,稳定与快速的版本更新服务;

运行环境

代码语言:txt
复制
1: 跨平台,同时支持ubuntu、centos、windows、mac等系统; 
2: 建议操作系统选择64位系统。
3: 建议使用chrome浏览器访问软件后台;

自定义采集关键词

创建一个关键词采集任务

点击【自定义导入种子关键词文件】按钮,选择包含要采集的关键词的列表文件;

根据自己的业务场景配置相关的搜索引擎,采集相关的设置

创建关键词任务任务.png
创建关键词任务任务.png

采集中

关键词采集 00_00_00-00_00_30.gif
关键词采集 00_00_00-00_00_30.gif

采集结果预览:

结果预览.png
结果预览.png

软件文档:https://www.msray.net/doc

免费版下载:https://github.com/super-l/msray

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • URL采集器-关键词采集
    • 系统优势:
      • 运行环境
        • 自定义采集关键词
        • 创建一个关键词采集任务
        • 采集中
        • 采集结果预览:
    相关产品与服务
    对象存储
    对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档