腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Java与Android技术栈
专栏成员
举报
136
文章
182873
阅读量
28
订阅数
订阅专栏
申请加入专栏
全部文章(136)
其他(43)
java(41)
kotlin(36)
android(31)
编程算法(17)
github(12)
爬虫(9)
https(9)
开源(7)
git(6)
网站(6)
http(6)
socket编程(6)
人工智能(5)
缓存(5)
网络安全(5)
react(4)
api(4)
jvm(4)
opencv(4)
tensorflow(3)
scala(3)
apache(3)
spring(3)
分布式(3)
c++(2)
打包(2)
ide(2)
mapreduce(2)
serverless(2)
存储(2)
hashmap(2)
zookeeper(2)
aop(2)
tcp/ip(2)
hbase(2)
区块链(1)
数字货币(1)
数据挖掘(1)
swift(1)
c 语言(1)
php(1)
javascript(1)
css(1)
ajax(1)
嵌入式(1)
云数据库 Redis(1)
memcached(1)
access(1)
jar(1)
linux(1)
深度学习(1)
黑石物理服务器(1)
文件存储(1)
命令行工具(1)
消息队列 CMQ 版(1)
文字识别(1)
mongodb(1)
图像处理(1)
电商(1)
express(1)
sass(1)
spark(1)
jdk(1)
面向对象编程(1)
spring boot(1)
asp(1)
selenium(1)
dubbo(1)
gcc(1)
gradle(1)
安全(1)
数据分析(1)
信息流(1)
kafka(1)
sdk(1)
搜索文章
搜索
搜索
关闭
基于 ZooKeeper 实现爬虫集群的监控
zookeeper
爬虫
分布式
hbase
apache
ZooKeeper 通常用于:命名服务、配置管理、集群管理、分布式协调/通知、分布式锁和分布式队列等等。
fengzhizi715
2019-05-28
530
0
Java 通用爬虫框架中多线程的使用
爬虫
http
消息队列 CMQ 版
kafka
android
NetDiscovery 虽然借助了 RxJava 2 来实现线程的切换,仍然有大量使用多线程的场景。本文列举一些爬虫框架常见的多线程使用场景。
fengzhizi715
2019-05-19
1.2K
0
Disruptor 实践:整合到现有的爬虫框架一. Disruptor二. 实践总结:
爬虫
NetDiscovery 是基于 Vert.x、RxJava 2 等框架实现的爬虫框架。
fengzhizi715
2018-12-24
893
0
使用Kotlin Coroutines简单改造原有的爬虫框架
kotlin
爬虫
java
NetDiscover 是一款基于 Vert.x、RxJava2 实现的爬虫框架。因为我最近正好在学习 Kotlin 的 Coroutines,在学习过程中尝试改造一下自己的爬虫框架。所以,我为它新添加了一个模块:coroutines 模块。
fengzhizi715
2018-08-24
1.3K
0
为爬虫框架构建Selenium模块、DSL模块(Kotlin实现)
爬虫
selenium
kotlin
java
NetDiscover是一款基于Vert.x、RxJava2实现的爬虫框架。我最近添加了两个模块:Selenium模块、DSL模块。
fengzhizi715
2018-08-24
1.4K
0
将验证码识别功能集成到现有的爬虫框架
爬虫
tensorflow
github
https
过年期间我曾经写过一篇文章《一次简单的验证码识别以及思考》, 目前已经对该功能做了一些优化,可以支持几种类型的验证码识别。其核心思想仍然是上一篇文章所提到的,使用tensorflow来训练标注过的验证码。目前,多种类型的验证码训练完之后可以放到一个模型中。未来,有新增的验证码类型通过训练之后也可以整合到这个模型中。
fengzhizi715
2018-08-24
694
0
基于Vert.x和RxJava 2构建通用的爬虫框架
java
爬虫
spring
最近由于业务需要监控一些数据,虽然市面上有很多优秀的爬虫框架,但是我仍然打算从头开始实现一套完整的爬虫框架。
fengzhizi715
2018-08-24
931
0
基于RxJava2实现的简单图片爬虫
java
爬虫
tensorflow
github
https
今年十月份以来,跟朋友尝试导入一些图片到tensorflow来生成模型,这就需要大量的图片。刚开始我只写了一个简单的HttpClient程序来抓取图片,后来为了通用性索性写一个简单的图片爬虫程序。它可以用于抓取单张图片、多张图片、某个网页下的所有图片、多个网页下的所有图片。
fengzhizi715
2018-08-24
734
0
构建一个给爬虫使用的代理IP池总结
爬虫
mongodb
做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。
fengzhizi715
2018-08-24
961
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档