腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据技术架构

纯大数据技术分享，HBase/Kafka/Flink等技术栈，原理与实践，源码分析等。欢迎订阅公众号：大数据技术架构

专栏作者

149

文章

318234

阅读量

95

订阅数

Scrapy源码解读

scrapy 爬虫编程算法 http python

Scrapy一个比较完整的爬虫框架，包含了爬取任务的调度、多个线程同时爬取（异步多线程，不用等一个请求完成后才开始另一个请求）、自动过滤重复的链接等功能。使用者通过定义比较简单的爬虫类（例如目标网址、爬取的具体页面元素、存储的格式字段、数据清理逻辑），剩余的就可以交给scrapy完成爬取工作。

大数据技术架构

2023-03-08

6760

史上第二全面的HBase读写性能优化总结

hbase TDSQL MySQL 版存储 http 缓存

如果数据吞吐量较大，且一次查询返回的数据量较大，则Rowkey 必须进行散列化处理，同时建表必须进行预分区处理。对于以get为主的查询场景，则将表进行hash预分区，均匀分布；如果以scan为主，则需要兼顾业务场景设计rowkey，在满足查询需求的前提下尽量对数据打散并进行负载均衡。

大数据技术架构

2021-07-05

2.4K0

Apache Kylin 入门介绍与学习资源

sql hadoop hbase http TDSQL MySQL 版

近日 Kylin v2.6.4 版本发布，包含很多问题修复与各种改进。翻阅三年前写的Kylin测试文档，当时版本还是1.5.3。近两年 Kylin 版本迅速迭代，社区不断发展，已经成为 Hadoop 生态中不可或缺的 OLAP 引擎。

大数据技术架构

2019-10-15

8420

HBase的SQL中间层——Phoenix（附大数据入门指南）

hbase TDSQL MySQL 版 sql http https

大数据依然是当前较为火热的领域，其背后的核心价值是数据。今天分享一个GitHub上一个系类文章，作者是heibaiying，大数据入门指南（2019）地址：https://github.com/heibaiying/BigData-Notes（本文末点击阅读原文进入），内容涉及下图的相关技术。

大数据技术架构

2019-09-10

1.3K0

Apache Spark 内存管理详解(上)

jvm 文件存储 spark 存储 http

本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。

大数据技术架构

2019-08-16

1.9K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态