首页
学习
活动
专区
工具
TVP
发布

小怪聊职场

专栏作者
115
文章
287315
阅读量
62
订阅数
爬虫总结 | 爬虫的那点事第一篇一、在(反)爬虫路上的心得和解决方案二、分布式爬虫的经验三、对于后期的内容精准推送有什么建议四、爬虫中遇到的一些坑五、视频落地和精准推送六、数据落地,后期做用户画像考虑
现在慢慢开始对爬虫的一些工作做一个总结,这是第一篇文章,整理聊下做一个爬虫系统时的一些感悟。 一、在(反)爬虫路上的心得和解决方案 在讲反爬之前,先说阐明我的一个观点:反反爬的过程其实是一个和我们的客
黄小怪
2018-06-22
1.2K0
爬虫课堂(二十六)|使用scrapy-redis框架实现分布式爬虫(1)
到了讲scrapy-redis框架的时候啦,在讲它之前先提出三个问题: 我们要使用分布式,那么分布式有什么优点? Scrapy不支持分布式,是为什么? 如果要使Scrapy支持分布式,需要解决哪些问题? scrapy-redis是怎么解决这些问题的? 接下来,我们逐个回答: 分布式的主要优点包括如下两种: 1)充分利用多机器的宽带加速爬取。 2)充分利用多机的IP加速爬取速度。 在爬虫课堂(十六)|Scrapy框架结构及工作原理章节中,我们已经讲解过Scrapy运行流程,如下图26-1所示: 1)当爬
黄小怪
2018-05-21
1.3K0
大数据|zookeeper简介及3个简单易懂的案例分析(一)
一、zookeeper简介 zookeeper是一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务。具体来讲zookeeper可以实现的分布式协调服务包括: 1)统一名称服务 2)
黄小怪
2018-05-21
6430
大数据|Hadoop简介及两大功能三大核心组件(二)
一、为什么需要hadoop? 在数据量很大的情况下,单机的处理能力无法胜任,必须采用分布式集群的方式进行处理,而用分布式集群的方式处理数据,实现的复杂度呈级数增加。所以,在海量数据处理的需求下,一个通
黄小怪
2018-05-21
9.8K0
Java|网络IO之同步、异步、阻塞、非阻塞
最近在看《大型分布式网站架构-设计与实践》这本书时,文中提到阻塞式IO,其实之前我在看一些书籍时也经常听到同步(synchronous) IO和异步(asynchronous) IO,阻塞(blocking) IO和非阻塞(non-blocking)IO这些词。 那么同步IO和异步IO,阻塞IO和非阻塞IO分别是什么,到底有什么区别呢? 一、网络IO操作过程 对于一个网络IO (这里我们以read举例),它会涉及到两个系统对象,一个是调用这个IO的过程process (or thread),另一个就是系统
黄小怪
2018-05-21
2.8K3
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档