腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
大数据技术架构
纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
专栏成员
举报
149
文章
373826
阅读量
97
订阅数
订阅专栏
申请加入专栏
全部文章(149)
sql(32)
hbase(32)
spark(29)
大数据(29)
kafka(29)
数据库(28)
TDSQL MySQL 版(21)
存储(21)
hive(14)
apache(12)
缓存(12)
https(11)
api(10)
编程算法(10)
分布式(10)
Elasticsearch Service(10)
hadoop(9)
云数据库 SQL Server(8)
文件存储(8)
消息队列 CMQ 版(8)
网络安全(8)
flink(8)
mapreduce(7)
jvm(7)
数据湖(7)
python(6)
zookeeper(6)
数据处理(6)
node.js(5)
云数据库 Redis®(5)
http(5)
数据分析(5)
linux(4)
mongodb(4)
开源(4)
windows(4)
云计算(4)
java(3)
搜索引擎(3)
lucene/solr(3)
网站(3)
日志数据(3)
jdk(3)
数据结构(3)
实时数仓(3)
javascript(2)
bash(2)
scala(2)
html(2)
打包(2)
ide(2)
unix(2)
bash 指令(2)
云数据库 MongoDB(2)
企业(2)
数据迁移(2)
socket编程(2)
数据可视化(2)
系统架构(2)
es(2)
负载均衡(1)
区块链(1)
数字货币(1)
机器学习(1)
tensorflow(1)
ios(1)
swift(1)
c++(1)
react(1)
ecmascript(1)
android(1)
oracle(1)
nosql(1)
tomcat(1)
全文检索(1)
负载均衡缓存(1)
nginx(1)
容器镜像服务(1)
神经网络(1)
深度学习(1)
专用宿主机(1)
批量计算(1)
数据备份(1)
容器(1)
devops(1)
运维(1)
压力测试(1)
爬虫(1)
jdbc(1)
hashmap(1)
tcp/ip(1)
scrapy(1)
rpc(1)
rabbitmq(1)
微服务(1)
特征工程(1)
性能测试(1)
数据集成(1)
搜索文章
搜索
搜索
关闭
Scrapy源码解读
scrapy
爬虫
编程算法
http
python
Scrapy一个比较完整的爬虫框架,包含了爬取任务的调度、多个线程同时爬取(异步多线程,不用等一个请求完成后才开始另一个请求)、自动过滤重复的链接等功能。使用者通过定义比较简单的爬虫类(例如目标网址、爬取的具体页面元素、存储的格式字段、数据清理逻辑),剩余的就可以交给scrapy完成爬取工作。
大数据技术架构
2023-03-08
803
0
诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台
日志数据
大数据
专用宿主机
实时数仓
运维
诺亚控股有限公司以“诺亚财富”为品牌,源起于中国,是首家在港美两地上市的中国独立财富管理机构,首家开创了财富管理和资产管理的双轮驱动业务模式,同时也是国内首家获得标准普尔“投资级”评级的财富管理公司,公司业务涵盖财富管理、资产管理和其他业务。诺亚数据智能部门负责公司大数据体系框架建设,主要工作是支撑日常的BI分析,数据看板,人群画像,自助分析等场景。
大数据技术架构
2022-12-01
719
0
Debezium 2.0.0.Final Released
oracle
mongodb
云数据库 MongoDB
云数据库 SQL Server
数据库
自2019年12月发布1.0版本以来,社区一直在积极构建一个全面的开源低延迟变更数据捕获(CDC)平台。在过去的三年里,我们扩展了Debezium的产品组合,包括用于Oracle的稳定连接器、社区主导的Vitess连接器、增量快照的引入、多分区支持等等。在社区活跃贡献者和提交者的帮助下,Debezium成为CDC领域事实上的领导者,部署在多个行业的许多组织的生产环境中,使用数百个连接器将数据更改从数千个数据库平台输出到实时流。
大数据技术架构
2022-12-01
3.1K
0
DevOps 已死?不重要!平台工程才是未来
devops
https
网络安全
最近, Scott Carey 发表了一篇调查文章,喊出了一些开发者的心声:“扯淡的 DevOps,我们开发者根本不想做运维!”除此之外,软件工程师兼 DevOps 评论员 Sid Palas 也在推特上写道,“DevOps 已死,平台工程才是未来。”
大数据技术架构
2022-12-01
577
0
重磅!Apache Kafka 3.3 发布!
kafka
apache
我们很自豪地代表 Apache Kafka 社区宣布发布 Apache Kafka® 3.3。3.3 版本包含许多新功能和改进。这篇博文将重点介绍一些更突出的功能。有关更改的完整列表,请务必查看发行说明。
大数据技术架构
2022-12-01
995
0
Cube.js 试试这个新的数据分析开源工具
react
数据可视化
api
开源
mongodb
Cube是无界面商业智能平台。它帮助数据工程师和应用程序开发人员从现代数据存储中访问数据,将其组织为一致的定义,并将其交付给每个应用程序。Cube 旨在与所有支持 SQL 的数据源一起工作,包括像 Snowflake 或 Google BigQuery 这样的云数据仓库、像 Presto 或 Amazon Athena 这样的查询引擎,以及像 Postgres 这样的应用程序数据库。Cube 内置关系缓存引擎,为 API 请求提供亚秒级延迟和高并发。
大数据技术架构
2022-12-01
3.3K
0
Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg
数据湖
数据库
sql
apache
存储
随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceberg。
大数据技术架构
2022-12-01
1.8K
0
分布式数据同步工具之DataX-Web部署使用
网站
数据库
云数据库 SQL Server
sql
背景介绍,因为需求是外部数据和内部生产数据之间需要通步,因此dataworks的数据同步模块的源端和目标是不支持多网络环境,要么公网,要么内网,因此这种需求我们的dataworks是不能使用的,我们调研了两个工具,一个是dataxweb ,一个是dolphinscheduler ,今天的篇幅主要讲解一下搭建的dataxweb的流程。
大数据技术架构
2022-12-01
8.4K
0
基于networkx的隐性集团关系识别模型
python
数据处理
demo数据采用python中faker进行构造,主要生成关系数据、目标客户数据。
大数据技术架构
2022-12-01
569
0
数据血缘分析-Python代码的智能解析
sql
编程算法
打包
python
如果你的工作是从事数据挖掘、数据仓库建设或者信息系统开发/维护,有没有曾经遇到过如下的烦恼?
大数据技术架构
2022-12-01
1.9K
0
Airflow 实践笔记-从入门到精通二
数据库
sql
python
linux
数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipelines with Apache Airflow,特此笔记,跟大家分享共勉。
大数据技术架构
2022-06-14
2.8K
0
Airflow 实践笔记-从入门到精通一
容器
数据库
sql
容器镜像服务
数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipelines with Apache Airflow,特此笔记,跟大家分享共勉。
大数据技术架构
2022-06-14
5.5K
0
Hive调优 | HiveServer2 性能优化与GC优化
jdbc
sql
压力测试
开发者利用jdbc连接hiveserver2(或者利用jdbc连接 spark HiveThriftServer2,由于两者都是提供jdbc连接到hive,因此,后面都统一称为利用jdbc连接hiveserver2),执行简单查询、复杂分析、超复杂分析等不同的sql任务,session并发量还很高(五六百甚至上千的并发),本质上要求大数据平台同时具备oltp的高并发与olap的高分析能力。对于hiveserver2这一类基于hadoop平台的jdbc server而言,非常不适合这种高并发的应用。
大数据技术架构
2021-12-02
2K
0
Spark调优 | Spark OOM问题常见解决方式
mapreduce
spark
bash
bash 指令
linux
Spark常见的问题不外乎OOM。我们首先看一下Spark 的内存模型:Spark在一个Executor中的内存分为三块,一块是execution内存,一块是storage内存,一块是other内存。
大数据技术架构
2021-11-23
3.2K
0
Kafka 3.0 重磅发布,有哪些值得关注的特性?
kafka
tcp/ip
api
apache
java
Apache Kafka 是一个分布式开源流平台,被广泛应用于各大互联网公司。Kafka 设计之初被用于消息队列,自 2011 年由 LinkedIn 开源以来,Kafka 迅速从消息队列演变为成熟的事件流处理平台。
大数据技术架构
2021-10-21
1.9K
0
干货 | 再来聊一聊 Parquet 列式存储格式
hive
存储
文件存储
编程算法
Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。
大数据技术架构
2021-08-25
3.8K
0
Spark性能调优指北:性能优化和故障处理
spark
mapreduce
数据库
sql
文件存储
Spark 官方推荐,Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。
大数据技术架构
2021-08-25
1K
0
Flink社区 | Flink CDC 2.0 正式发布,核心改进详解
大数据
flink
数据湖
数据结构
云数据库 SQL Server
摘要:本文由社区志愿者陈政羽整理,内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性,包括:全量数据的并发读取、checkpoint、无锁读取等重大改进。
大数据技术架构
2021-08-25
2.6K
0
HBase原理 | HBase RegionServer宕机数据恢复
TDSQL MySQL 版
hbase
日志数据
unix
HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失,在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常,这种设计可以从HLog中进行日志回放进行数据补救,保证数据不丢失。HBase故障恢复的最大看点就在于如何通过HLog回放补救丢失数据。
大数据技术架构
2021-08-25
2.9K
0
数据湖|Flink + Iceberg 全场景实时数仓的建设实践
flink
大数据
数据处理
sql
数据库
摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta 为代表的解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表,并提供对 Apache Flink 1.11.x 的集成支持。
大数据技术架构
2021-08-25
4.3K
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档