首页
学习
活动
专区
工具
TVP
发布

小灰灰

专栏作者
415
文章
721498
阅读量
77
订阅数
Spring之RestTemplate中级使用篇
前面一篇介绍了如何使用RestTemplate发起post和get请求,然而也只能满足一些基本的场景,对于一些特殊的如需要设置请求头,添加认证信息等场景,却没有提及可以怎么做,这一篇则相当于进阶版,将主要介绍
一灰灰blog
2018-08-15
2.5K0
Java 动手写爬虫: 五 对象池
第五篇,对象池的设计与实现 前面每爬取一个任务都对应一个Job任务,试想一下,当我们爬取网页越来越多,速度越来越快时,就会出现频繁的Job对象的创建和销毁,因此本片将考虑如何实现对象的复用,减少频繁的gc 设计 我们的目标是设计一个对象池,用于创建Job任务,基本要求是满足下面几点: 可以配置对象池的容量大小 通过对象池获取对象时,遵循一下规则: 对象池中有对象时,总对象池中获取 对象池中没有可用对象时,新创建对象返回(也可以采用阻塞,直到有可用对象,我们这里采用直接创建新对象方式) 对象用完后扔回对象
一灰灰blog
2018-02-06
6260
Java 动手写爬虫: 三、爬取队列
第三篇 爬取队列的实现 第二篇中,实现了深度爬取的过程,但其中一个比较明显的问题就是没有实现每个爬取作为一个独立的任务来执行;即串行的爬取网页中的链接;因此,这一篇将主要集中目标在并发的爬网页的问题
一灰灰blog
2018-02-06
1.9K0
Java 动手写爬虫: 二、 深度爬取
第二篇 前面实现了一个最基础的爬取单网页的爬虫,这一篇则着手解决深度爬取的问题 简单来讲,就是爬了一个网页之后,继续爬这个网页中的链接 1. 需求背景 背景比较简单和明确,当爬了一个网页之后,目标是不要就此打住,扫描这个网页中的链接,继续爬,所以有几个点需要考虑: 哪些链接可以继续爬 ? 是否要一直爬下去,要不要给一个终止符? 新的链接中,提取内容的规则和当前网页的规则不一致可以怎么办? 2. 设计 针对上面的几点,结合之前的实现结构,在执行 doFetchPage 方法获取网页之后,还得做一些其他的操
一灰灰blog
2018-02-06
1.9K0
Java 动手写爬虫: 一、实现一个最简单爬虫
第一篇 准备写个爬虫, 可以怎么搞? 使用场景 先定义一个最简单的使用场景,给你一个url,把这个url中指定的内容爬下来,然后停止 一个待爬去的网址(有个地方指定爬的网址) 如何获取指定的内容(可以配置规则来获取指定的内容) 设计 & 实现 1. 基本数据结构 CrawlMeta.java 一个配置项,包含塞入的 url 和 获取规则 /** * Created by yihui on 2017/6/27. */ @ToString public class CrawlMeta { /*
一灰灰blog
2018-02-06
2.9K0
Java 动手写爬虫: 四、日志埋点输出 & 动态配置支持
第四篇, 日志埋点输出 & 动态配置支持 前面基本上实现了一个非常简陋的爬虫框架模型,很多关键链路都没有日志,在分析问题时,就比较麻烦了,因此就有了这一篇博文 其次就是解决前几篇遗留的容易解决的问题 实际上,日志的输出应该贯穿在实际的开发过程中的,由于之前写得比较随意,直接System.out了, 所以现在就来填坑了 1.日志埋点设计 采用 logback 左右日志输出, 这里有一篇博文可供参考 《Logback 简明使用手册》 埋点的关键链路 当前爬取的任务信息 爬取任务的耗时 应用的状态(如爬取了多
一灰灰blog
2018-02-06
1.3K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档