首页
学习
活动
专区
工具
TVP
发布

Java与Android技术栈

专栏作者
136
文章
174587
阅读量
28
订阅数
基于 ZooKeeper 实现爬虫集群的监控
ZooKeeper 通常用于:命名服务、配置管理、集群管理、分布式协调/通知、分布式锁和分布式队列等等。
fengzhizi715
2019-05-28
5060
Java 通用爬虫框架中多线程的使用
NetDiscovery 虽然借助了 RxJava 2 来实现线程的切换,仍然有大量使用多线程的场景。本文列举一些爬虫框架常见的多线程使用场景。
fengzhizi715
2019-05-19
1.1K0
Disruptor 实践:整合到现有的爬虫框架一. Disruptor二. 实践总结:
NetDiscovery 是基于 Vert.x、RxJava 2 等框架实现的爬虫框架。
fengzhizi715
2018-12-24
8480
使用Kotlin Coroutines简单改造原有的爬虫框架
NetDiscover 是一款基于 Vert.x、RxJava2 实现的爬虫框架。因为我最近正好在学习 Kotlin 的 Coroutines,在学习过程中尝试改造一下自己的爬虫框架。所以,我为它新添加了一个模块:coroutines 模块。
fengzhizi715
2018-08-24
1.3K0
为爬虫框架构建Selenium模块、DSL模块(Kotlin实现)
NetDiscover是一款基于Vert.x、RxJava2实现的爬虫框架。我最近添加了两个模块:Selenium模块、DSL模块。
fengzhizi715
2018-08-24
1.3K0
将验证码识别功能集成到现有的爬虫框架
过年期间我曾经写过一篇文章《一次简单的验证码识别以及思考》, 目前已经对该功能做了一些优化,可以支持几种类型的验证码识别。其核心思想仍然是上一篇文章所提到的,使用tensorflow来训练标注过的验证码。目前,多种类型的验证码训练完之后可以放到一个模型中。未来,有新增的验证码类型通过训练之后也可以整合到这个模型中。
fengzhizi715
2018-08-24
6710
基于Vert.x和RxJava 2构建通用的爬虫框架
最近由于业务需要监控一些数据,虽然市面上有很多优秀的爬虫框架,但是我仍然打算从头开始实现一套完整的爬虫框架。
fengzhizi715
2018-08-24
8930
基于RxJava2实现的简单图片爬虫
今年十月份以来,跟朋友尝试导入一些图片到tensorflow来生成模型,这就需要大量的图片。刚开始我只写了一个简单的HttpClient程序来抓取图片,后来为了通用性索性写一个简单的图片爬虫程序。它可以用于抓取单张图片、多张图片、某个网页下的所有图片、多个网页下的所有图片。
fengzhizi715
2018-08-24
7140
构建一个给爬虫使用的代理IP池总结
做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。
fengzhizi715
2018-08-24
9380
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档