首页
学习
活动
专区
工具
TVP
发布

大数据技术架构

纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
专栏作者
149
文章
318234
阅读量
95
订阅数
Scrapy源码解读
Scrapy一个比较完整的爬虫框架,包含了爬取任务的调度、多个线程同时爬取(异步多线程,不用等一个请求完成后才开始另一个请求)、自动过滤重复的链接等功能。使用者通过定义比较简单的爬虫类(例如目标网址、爬取的具体页面元素、存储的格式字段、数据清理逻辑),剩余的就可以交给scrapy完成爬取工作。
大数据技术架构
2023-03-08
6760
史上第二全面的HBase读写性能优化总结
如果数据吞吐量较大,且一次查询返回的数据量较大,则Rowkey 必须进行散列化处理,同时建表必须进行预分区处理。对于以get为主的查询场景,则将表进行hash预分区,均匀分布;如果以scan为主,则需要兼顾业务场景设计rowkey,在满足查询需求的前提下尽量对数据打散并进行负载均衡。
大数据技术架构
2021-07-05
2.4K0
Apache Kylin 入门介绍与学习资源
近日 Kylin v2.6.4 版本发布,包含很多问题修复与各种改进。翻阅三年前写的Kylin测试文档,当时版本还是1.5.3。近两年 Kylin 版本迅速迭代,社区不断发展,已经成为 Hadoop 生态中不可或缺的 OLAP 引擎。
大数据技术架构
2019-10-15
8420
HBase的SQL中间层——Phoenix(附大数据入门指南)
大数据依然是当前较为火热的领域,其背后的核心价值是数据。今天分享一个GitHub上一个系类文章,作者是heibaiying,大数据入门指南(2019)地址:https://github.com/heibaiying/BigData-Notes(本文末点击阅读原文进入),内容涉及下图的相关技术。
大数据技术架构
2019-09-10
1.3K0
Apache Spark 内存管理详解(上)
本文旨在梳理出Spark内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。
大数据技术架构
2019-08-16
1.9K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档