那些优秀的网络爬虫工具介绍,最后亮了!| 码云周刊第 16 期

技术干货

1、SpringMVC 执行流程及源码解析

2、使用 Vue2 和 Yii2 进行前后端分离开发

3、 SSM (十一) 基于 dubbo 的分布式架构

4、五大理由从 Python 转到 Go 语言

5、软件的复杂性: 命名的艺术

技术分享

1、SpringMVC 执行流程及源码解析

在SpringMVC中主要是围绕着DispatcherServlet来设计,可以把它当做指挥中心。这里先说明一下SpringMVC文档给出的执行流程,然后是我们稍微具体的执行流程,最后是流程大致的源码跟踪。

2、使用 Vue2 和 Yii2 进行前后端分离开发

本文介绍使用Vue2单页面程序作为前台,以Yii2搭建后台提供API,进行前后端分离开发的入门知识。本文适合Vue2,Yii2爱好者观看。预计花费时间30分钟,跟随教程操作。

3、 SSM (十一) 基于 dubbo 的分布式架构

现在越来越多的互联网公司还是将自己公司的项目进行服务化,这确实是今后项目开发的一个趋势,就这个点再凭借之前的SSM项目来让第一次接触的同学能快速上手。

独家译文

4、五大理由从 Python 转到 Go 语言

Python 是非常强大的,特别是 Python3 有了异步功能,但是 GO 将完全取代它在大企业中的存在…

5、软件的复杂性: 命名的艺术

想把一个东西写好很难。为什么呢?因为只要写好了,才会有很好的阅读体验。我们往往关注了前者而忽略了后者。我们忘记了代码只写一次,但要读很多次。

码云推荐

1、强力 Java 爬虫

2、便于二次开发的爬虫框架

3、分布式爬虫系统

4、Go语言实现的高性能爬虫

5、Node.js 的爬虫系统

6、人脸识别爬虫

7、全球最大成人网站PornHub爬虫

1、强力 Java 爬虫 Spiderman

项目简介:Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。

Spiderman主要是运用了像XPath,正则表达式等这些技术来实数据抽取。

主要特点

- 微内核+插件式架构、灵活、可扩展性强

- 无需编写程序代码即可完成数据抽取

- 多线程保证性能

2、便于二次开发的爬虫框架 webmagic

项目简介:webmagic 是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

主要特点

- 简单的核心,灵活性高。

- 用于HTML提取的简单API。

- 使用POJO进行注释来自定义抓取工具,无需配置。

- 多线程和分发支持。

- 易于集成

3、分布式爬虫系统 YayCrawler

项目简介:分布式爬虫系统,简单使用,高级配置。可扩展,减轻开发量,能docker化,适应各种急切需求核心框架:WebMagic, Spring Boot ,MongoDB, ActiveMQ ,Spring + Quartz,Spring Jpa , Druid,Redis, Ehcache ,SLF4J、Log4j2, Bootstrap + Jquery 等。

4、Go语言实现的高性能爬虫 DenseSpider

项目简介:Go语言实现的高性能爬虫,基于go_spider开发。实现了单机并发采集,深度遍历,自定义深度层级等特性。

基本结构

- Spider模块(主控)

- Downloader模块(下载器)

- PageProcesser模块(页面分析)

- History(Url采集历史记录)

- Scheduler模块(任务队列)

- Pipeline模块(结果输出)

主要Feature

- 基于Go语言的并发采集

- 页面下载、分析、持久化模块化,可自定义扩展

- 采集日志记录(Mongodb支持)

- 页面数据自定义存储(Mysql、Mongodb)

- 深度遍历,同时可自定义深度层次

- Xpath解析

5、Node.js 的爬虫系统 neocrawler

项目简介:NEOCrawler(中文名:牛咖),是nodejs、redis、phantomjs实现的爬虫系统。代码完全开源,适合用于垂直领域的数据采集和爬虫二次开发。

特点

- 支持web界面方式的摘取规则配置(css selector & regex);

- 包含无界面的浏览器引擎(phantomjs),支持js产生内容的抓取;

- 用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽;

- nodejs none-block 异步环境下的抓取性能比较高;

- 中央调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量;

- 支持多种抓取实例并存,定制摘取引擎和存储方式。

整体架构:

6、人脸识别爬虫 FaceSpider

项目简介:使用openCV结合网络爬虫编写的人脸识别爬虫,基于opencv246编写能够根据设置的线程数及深度针对指定目标URL的图片进行爬取。

7、全球最大成人网站PornHub爬虫 PornHubBot

项目简介:全球最大成人网站PornHub爬虫 (Scrapy、MongoDB) 一天500w的数据。该项目旨在研究Scrapy Spider框架和MongoDB数据库,不能用于商业或其他个人意图。:)

原文发布于微信公众号 - 码云Gitee(mayunOSC)

原文发表时间:2017-04-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯NEXT学位

怎样让开源项目看起来“高大上”

3744
来自专栏FreeBuf

关于Fuzz工具的那些事儿

前段时间一直在研究fuzz工具,这里就写篇文章总结一下下。 在安全测试中,模糊测试(fuzz testing)是一种介于完全的手工渗透测试与完全的自动化测试之间...

1K5
来自专栏美团技术团队

美团点评智能支付核心交易系统的可用性实践

2467
来自专栏Python中文社区

Django 博客教程:前言和环境安装(连载一)

專 欄 ❈追梦人物,电子科技大学计算机学院研究生,从事大数据分析研究方向。主要使用 Python 语言进行相关数据的分析,熟练使用 django 开发网站系统。...

2328
来自专栏NetCore

微信快速开发框架(七)--发送客服信息,版本更新至V2.2 代码已更新至github

在V2版本发布的博文中,已经介绍了大多数Api的用法,同时也收到了很多意见,其中发布了几个修正版本,修改了几个bug,在此感谢大家的使用,有了大家的支持,相信快...

2067
来自专栏CSDN技术头条

容器化RDS|计算存储分离架构下的IO优化

在基于 Kubernetes 和 Docker 构建的私有 RDS 中,普遍采用了计算存储分离架构。该架构优势明显, 但对于数据库类 Latency Sensi...

3216
来自专栏北京马哥教育

15个NoSql数据库

随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是...

4018
来自专栏EAWorld

微服务转型,雪崩效应是绕不过的一道坎

记得在三年前公司因为业务发展需要,就曾经将单体应用迁移到分布式框架上来。当时就遇到了这样一个问题:系统仅有一个控制单元,它会调用多个运算单元,如果某个运算单元(...

57912
来自专栏编程一生

美团点评智能支付核心交易系统的可用性实践

1401
来自专栏蘑菇先生的技术笔记

给公司部门设计的SOA架构

2166

扫码关注云+社区

领取腾讯云代金券