腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据技术架构
纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
专栏作者
举报
149
文章
317662
阅读量
95
订阅数
订阅专栏
申请加入专栏
全部文章
sql
hbase
spark
大数据
kafka
数据库
TDSQL MySQL 版
存储
hive
apache
缓存
https
api
编程算法
分布式
Elasticsearch Service
hadoop
云数据库 SQL Server
文件存储
消息队列 CMQ 版
网络安全
flink
mapreduce
jvm
数据湖
python
zookeeper
数据处理
node.js
云数据库 Redis
http
数据分析
linux
mongodb
开源
windows
云计算
java
搜索引擎
lucene/solr
网站
日志数据
jdk
数据结构
实时数仓
javascript
bash
scala
html
打包
ide
unix
bash 指令
云数据库 MongoDB
企业
数据迁移
socket编程
数据可视化
系统架构
es
负载均衡
区块链
数字货币
机器学习
tensorflow
ios
swift
c++
react
ecmascript
android
oracle
nosql
tomcat
全文检索
负载均衡缓存
nginx
容器镜像服务
神经网络
深度学习
专用宿主机
批量计算
数据备份
容器
devops
运维
压力测试
爬虫
jdbc
hashmap
tcp/ip
scrapy
rpc
rabbitmq
微服务
特征工程
性能测试
数据集成
搜索文章
搜索
搜索
关闭
Scrapy源码解读
scrapy
爬虫
编程算法
http
python
Scrapy一个比较完整的爬虫框架,包含了爬取任务的调度、多个线程同时爬取(异步多线程,不用等一个请求完成后才开始另一个请求)、自动过滤重复的链接等功能。使用者通过定义比较简单的爬虫类(例如目标网址、爬取的具体页面元素、存储的格式字段、数据清理逻辑),剩余的就可以交给scrapy完成爬取工作。
大数据技术架构
2023-03-08
674
0
诺亚财富 X Hologres : 统一OLAP分析引擎,全面打造金融数字化分析平台
日志数据
大数据
专用宿主机
实时数仓
运维
诺亚控股有限公司以“诺亚财富”为品牌,源起于中国,是首家在港美两地上市的中国独立财富管理机构,首家开创了财富管理和资产管理的双轮驱动业务模式,同时也是国内首家获得标准普尔“投资级”评级的财富管理公司,公司业务涵盖财富管理、资产管理和其他业务。诺亚数据智能部门负责公司大数据体系框架建设,主要工作是支撑日常的BI分析,数据看板,人群画像,自助分析等场景。
大数据技术架构
2022-12-01
602
0
Debezium 2.0.0.Final Released
oracle
mongodb
云数据库 MongoDB
云数据库 SQL Server
数据库
自2019年12月发布1.0版本以来,社区一直在积极构建一个全面的开源低延迟变更数据捕获(CDC)平台。在过去的三年里,我们扩展了Debezium的产品组合,包括用于Oracle的稳定连接器、社区主导的Vitess连接器、增量快照的引入、多分区支持等等。在社区活跃贡献者和提交者的帮助下,Debezium成为CDC领域事实上的领导者,部署在多个行业的许多组织的生产环境中,使用数百个连接器将数据更改从数千个数据库平台输出到实时流。
大数据技术架构
2022-12-01
2.8K
0
DevOps 已死?不重要!平台工程才是未来
devops
https
网络安全
最近, Scott Carey 发表了一篇调查文章,喊出了一些开发者的心声:“扯淡的 DevOps,我们开发者根本不想做运维!”除此之外,软件工程师兼 DevOps 评论员 Sid Palas 也在推特上写道,“DevOps 已死,平台工程才是未来。”
大数据技术架构
2022-12-01
508
0
重磅!Apache Kafka 3.3 发布!
kafka
apache
我们很自豪地代表 Apache Kafka 社区宣布发布 Apache Kafka® 3.3。3.3 版本包含许多新功能和改进。这篇博文将重点介绍一些更突出的功能。有关更改的完整列表,请务必查看发行说明。
大数据技术架构
2022-12-01
868
0
Cube.js 试试这个新的数据分析开源工具
react
数据可视化
api
开源
mongodb
Cube是无界面商业智能平台。它帮助数据工程师和应用程序开发人员从现代数据存储中访问数据,将其组织为一致的定义,并将其交付给每个应用程序。Cube 旨在与所有支持 SQL 的数据源一起工作,包括像 Snowflake 或 Google BigQuery 这样的云数据仓库、像 Presto 或 Amazon Athena 这样的查询引擎,以及像 Postgres 这样的应用程序数据库。Cube 内置关系缓存引擎,为 API 请求提供亚秒级延迟和高并发。
大数据技术架构
2022-12-01
2.9K
0
Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg
数据湖
数据库
sql
apache
存储
随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceberg。
大数据技术架构
2022-12-01
1.5K
0
分布式数据同步工具之DataX-Web部署使用
网站
数据库
云数据库 SQL Server
sql
背景介绍,因为需求是外部数据和内部生产数据之间需要通步,因此dataworks的数据同步模块的源端和目标是不支持多网络环境,要么公网,要么内网,因此这种需求我们的dataworks是不能使用的,我们调研了两个工具,一个是dataxweb ,一个是dolphinscheduler ,今天的篇幅主要讲解一下搭建的dataxweb的流程。
大数据技术架构
2022-12-01
6.1K
0
基于networkx的隐性集团关系识别模型
python
数据处理
demo数据采用python中faker进行构造,主要生成关系数据、目标客户数据。
大数据技术架构
2022-12-01
512
0
数据血缘分析-Python代码的智能解析
sql
编程算法
打包
python
如果你的工作是从事数据挖掘、数据仓库建设或者信息系统开发/维护,有没有曾经遇到过如下的烦恼?
大数据技术架构
2022-12-01
1.6K
0
Airflow 实践笔记-从入门到精通二
数据库
sql
python
linux
数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipelines with Apache Airflow,特此笔记,跟大家分享共勉。
大数据技术架构
2022-06-14
2.4K
0
Airflow 实践笔记-从入门到精通一
容器
数据库
sql
容器镜像服务
数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipelines with Apache Airflow,特此笔记,跟大家分享共勉。
大数据技术架构
2022-06-14
4.3K
0
Hive调优 | HiveServer2 性能优化与GC优化
jdbc
sql
压力测试
开发者利用jdbc连接hiveserver2(或者利用jdbc连接 spark HiveThriftServer2,由于两者都是提供jdbc连接到hive,因此,后面都统一称为利用jdbc连接hiveserver2),执行简单查询、复杂分析、超复杂分析等不同的sql任务,session并发量还很高(五六百甚至上千的并发),本质上要求大数据平台同时具备oltp的高并发与olap的高分析能力。对于hiveserver2这一类基于hadoop平台的jdbc server而言,非常不适合这种高并发的应用。
大数据技术架构
2021-12-02
1.4K
0
Spark调优 | Spark OOM问题常见解决方式
mapreduce
spark
bash
bash 指令
linux
Spark常见的问题不外乎OOM。我们首先看一下Spark 的内存模型:Spark在一个Executor中的内存分为三块,一块是execution内存,一块是storage内存,一块是other内存。
大数据技术架构
2021-11-23
1.7K
0
Kafka 3.0 重磅发布,有哪些值得关注的特性?
kafka
tcp/ip
api
apache
java
Apache Kafka 是一个分布式开源流平台,被广泛应用于各大互联网公司。Kafka 设计之初被用于消息队列,自 2011 年由 LinkedIn 开源以来,Kafka 迅速从消息队列演变为成熟的事件流处理平台。
大数据技术架构
2021-10-21
1.9K
0
干货 | 再来聊一聊 Parquet 列式存储格式
hive
存储
文件存储
编程算法
Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。
大数据技术架构
2021-08-25
1.9K
0
Spark性能调优指北:性能优化和故障处理
spark
mapreduce
数据库
sql
文件存储
Spark 官方推荐,Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。
大数据技术架构
2021-08-25
851
0
Flink社区 | Flink CDC 2.0 正式发布,核心改进详解
大数据
flink
数据湖
数据结构
云数据库 SQL Server
摘要:本文由社区志愿者陈政羽整理,内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性,包括:全量数据的并发读取、checkpoint、无锁读取等重大改进。
大数据技术架构
2021-08-25
2.3K
0
HBase原理 | HBase RegionServer宕机数据恢复
TDSQL MySQL 版
hbase
日志数据
unix
HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失,在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常,这种设计可以从HLog中进行日志回放进行数据补救,保证数据不丢失。HBase故障恢复的最大看点就在于如何通过HLog回放补救丢失数据。
大数据技术架构
2021-08-25
2.5K
0
数据湖|Flink + Iceberg 全场景实时数仓的建设实践
flink
大数据
数据处理
sql
数据库
摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta 为代表的解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表,并提供对 Apache Flink 1.11.x 的集成支持。
大数据技术架构
2021-08-25
3.2K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档