小灰灰-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

小灰灰

专栏成员

415

文章

763733

阅读量

77

订阅数

Spring之RestTemplate中级使用篇

spring json 爬虫 mvc

前面一篇介绍了如何使用RestTemplate发起post和get请求，然而也只能满足一些基本的场景，对于一些特殊的如需要设置请求头，添加认证信息等场景，却没有提及可以怎么做，这一篇则相当于进阶版，将主要介绍

2018-08-15

2.5K0

Java 动手写爬虫: 五对象池

第五篇，对象池的设计与实现前面每爬取一个任务都对应一个Job任务，试想一下，当我们爬取网页越来越多，速度越来越快时，就会出现频繁的Job对象的创建和销毁，因此本片将考虑如何实现对象的复用，减少频繁的gc 设计我们的目标是设计一个对象池，用于创建Job任务，基本要求是满足下面几点: 可以配置对象池的容量大小通过对象池获取对象时，遵循一下规则：对象池中有对象时，总对象池中获取对象池中没有可用对象时，新创建对象返回（也可以采用阻塞，直到有可用对象，我们这里采用直接创建新对象方式）对象用完后扔回对象

2018-02-06

6490

Java 动手写爬虫: 三、爬取队列

第三篇爬取队列的实现第二篇中，实现了深度爬取的过程，但其中一个比较明显的问题就是没有实现每个爬取作为一个独立的任务来执行；即串行的爬取网页中的链接；因此，这一篇将主要集中目标在并发的爬网页的问题

2018-02-06

1.9K0

Java 动手写爬虫: 二、深度爬取

第二篇前面实现了一个最基础的爬取单网页的爬虫，这一篇则着手解决深度爬取的问题简单来讲，就是爬了一个网页之后，继续爬这个网页中的链接 1. 需求背景背景比较简单和明确，当爬了一个网页之后，目标是不要就此打住，扫描这个网页中的链接，继续爬，所以有几个点需要考虑: 哪些链接可以继续爬？是否要一直爬下去，要不要给一个终止符？新的链接中，提取内容的规则和当前网页的规则不一致可以怎么办？ 2. 设计针对上面的几点，结合之前的实现结构，在执行 doFetchPage 方法获取网页之后，还得做一些其他的操

2018-02-06

2K0

Java 动手写爬虫: 一、实现一个最简单爬虫

第一篇准备写个爬虫，可以怎么搞？使用场景先定义一个最简单的使用场景，给你一个url，把这个url中指定的内容爬下来，然后停止一个待爬去的网址（有个地方指定爬的网址）如何获取指定的内容（可以配置规则来获取指定的内容）设计 & 实现 1. 基本数据结构 CrawlMeta.java 一个配置项，包含塞入的 url 和获取规则 /** * Created by yihui on 2017/6/27. */ @ToString public class CrawlMeta { /*

2018-02-06

3K0

Java 动手写爬虫: 四、日志埋点输出 & 动态配置支持

第四篇, 日志埋点输出 & 动态配置支持前面基本上实现了一个非常简陋的爬虫框架模型，很多关键链路都没有日志，在分析问题时，就比较麻烦了，因此就有了这一篇博文其次就是解决前几篇遗留的容易解决的问题实际上，日志的输出应该贯穿在实际的开发过程中的，由于之前写得比较随意，直接System.out了, 所以现在就来填坑了 1.日志埋点设计采用 logback 左右日志输出，这里有一篇博文可供参考《Logback 简明使用手册》埋点的关键链路当前爬取的任务信息爬取任务的耗时应用的状态（如爬取了多

2018-02-06

1.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态