腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据技术架构

纯大数据技术分享，HBase/Kafka/Flink等技术栈，原理与实践，源码分析等。欢迎订阅公众号：大数据技术架构

专栏作者

149

文章

317662

阅读量

95

订阅数

Scrapy源码解读

scrapy 爬虫编程算法 http python

Scrapy一个比较完整的爬虫框架，包含了爬取任务的调度、多个线程同时爬取（异步多线程，不用等一个请求完成后才开始另一个请求）、自动过滤重复的链接等功能。使用者通过定义比较简单的爬虫类（例如目标网址、爬取的具体页面元素、存储的格式字段、数据清理逻辑），剩余的就可以交给scrapy完成爬取工作。

大数据技术架构

2023-03-08

6740

诺亚财富 X Hologres ：统一OLAP分析引擎，全面打造金融数字化分析平台

日志数据大数据专用宿主机实时数仓运维

诺亚控股有限公司以“诺亚财富”为品牌，源起于中国，是首家在港美两地上市的中国独立财富管理机构，首家开创了财富管理和资产管理的双轮驱动业务模式，同时也是国内首家获得标准普尔“投资级”评级的财富管理公司，公司业务涵盖财富管理、资产管理和其他业务。诺亚数据智能部门负责公司大数据体系框架建设，主要工作是支撑日常的BI分析，数据看板，人群画像，自助分析等场景。

大数据技术架构

2022-12-01

6020

Debezium 2.0.0.Final Released

oracle mongodb 云数据库 MongoDB 云数据库 SQL Server 数据库

自2019年12月发布1.0版本以来，社区一直在积极构建一个全面的开源低延迟变更数据捕获(CDC)平台。在过去的三年里，我们扩展了Debezium的产品组合，包括用于Oracle的稳定连接器、社区主导的Vitess连接器、增量快照的引入、多分区支持等等。在社区活跃贡献者和提交者的帮助下，Debezium成为CDC领域事实上的领导者，部署在多个行业的许多组织的生产环境中，使用数百个连接器将数据更改从数千个数据库平台输出到实时流。

大数据技术架构

2022-12-01

2.8K0

DevOps 已死？不重要！平台工程才是未来

devops https 网络安全

最近， Scott Carey 发表了一篇调查文章，喊出了一些开发者的心声：“扯淡的 DevOps，我们开发者根本不想做运维！”除此之外，软件工程师兼 DevOps 评论员 Sid Palas 也在推特上写道，“DevOps 已死，平台工程才是未来。”

大数据技术架构

2022-12-01

5080

重磅！Apache Kafka 3.3 发布！

我们很自豪地代表 Apache Kafka 社区宣布发布 Apache Kafka® 3.3。3.3 版本包含许多新功能和改进。这篇博文将重点介绍一些更突出的功能。有关更改的完整列表，请务必查看发行说明。

大数据技术架构

2022-12-01

8680

Cube.js 试试这个新的数据分析开源工具

react 数据可视化 api 开源 mongodb

Cube是无界面商业智能平台。它帮助数据工程师和应用程序开发人员从现代数据存储中访问数据，将其组织为一致的定义，并将其交付给每个应用程序。Cube 旨在与所有支持 SQL 的数据源一起工作，包括像 Snowflake 或 Google BigQuery 这样的云数据仓库、像 Presto 或 Amazon Athena 这样的查询引擎，以及像 Postgres 这样的应用程序数据库。Cube 内置关系缓存引擎，为 API 请求提供亚秒级延迟和高并发。

大数据技术架构

2022-12-01

2.9K0

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

数据湖数据库 sql apache 存储

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。

大数据技术架构

2022-12-01

1.5K0

分布式数据同步工具之DataX-Web部署使用

网站数据库云数据库 SQL Server sql

背景介绍，因为需求是外部数据和内部生产数据之间需要通步，因此dataworks的数据同步模块的源端和目标是不支持多网络环境，要么公网，要么内网，因此这种需求我们的dataworks是不能使用的，我们调研了两个工具，一个是dataxweb ,一个是dolphinscheduler ，今天的篇幅主要讲解一下搭建的dataxweb的流程。

大数据技术架构

2022-12-01

6.1K0

基于networkx的隐性集团关系识别模型

python 数据处理

demo数据采用python中faker进行构造，主要生成关系数据、目标客户数据。

大数据技术架构

2022-12-01

5120

数据血缘分析-Python代码的智能解析

sql 编程算法打包 python

如果你的工作是从事数据挖掘、数据仓库建设或者信息系统开发/维护，有没有曾经遇到过如下的烦恼？

大数据技术架构

2022-12-01

1.6K0

Airflow 实践笔记-从入门到精通二

数据库 sql python linux

数据处理逻辑多，脚本相互依赖强，运维管理监测难，怎么办？！为了解决这些问题，最近比较深入研究Airflow的使用方法，重点参考了官方文档和Data Pipelines with Apache Airflow，特此笔记，跟大家分享共勉。

大数据技术架构

2022-06-14

2.4K0

Airflow 实践笔记-从入门到精通一

容器数据库 sql 容器镜像服务

数据处理逻辑多，脚本相互依赖强，运维管理监测难，怎么办？！为了解决这些问题，最近比较深入研究Airflow的使用方法，重点参考了官方文档和Data Pipelines with Apache Airflow，特此笔记，跟大家分享共勉。

大数据技术架构

2022-06-14

4.3K0

Hive调优 | HiveServer2 性能优化与GC优化

jdbc sql 压力测试

开发者利用jdbc连接hiveserver2（或者利用jdbc连接 spark HiveThriftServer2，由于两者都是提供jdbc连接到hive，因此，后面都统一称为利用jdbc连接hiveserver2），执行简单查询、复杂分析、超复杂分析等不同的sql任务，session并发量还很高（五六百甚至上千的并发），本质上要求大数据平台同时具备oltp的高并发与olap的高分析能力。对于hiveserver2这一类基于hadoop平台的jdbc server而言，非常不适合这种高并发的应用。

大数据技术架构

2021-12-02

1.4K0

Spark调优 | Spark OOM问题常见解决方式

mapreduce spark bash bash 指令 linux

Spark常见的问题不外乎OOM。我们首先看一下Spark 的内存模型：Spark在一个Executor中的内存分为三块，一块是execution内存，一块是storage内存，一块是other内存。

大数据技术架构

2021-11-23

1.7K0

Kafka 3.0 重磅发布，有哪些值得关注的特性？

kafka tcp/ip api apache java

Apache Kafka 是一个分布式开源流平台，被广泛应用于各大互联网公司。Kafka 设计之初被用于消息队列，自 2011 年由 LinkedIn 开源以来，Kafka 迅速从消息队列演变为成熟的事件流处理平台。

大数据技术架构

2021-10-21

1.9K0

干货 | 再来聊一聊 Parquet 列式存储格式

hive 存储文件存储编程算法

Parquet 是 Hadoop 生态圈中主流的列式存储格式，最早是由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。

大数据技术架构

2021-08-25

1.9K0

Spark性能调优指北：性能优化和故障处理

spark mapreduce 数据库 sql 文件存储

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

大数据技术架构

2021-08-25

8510

Flink社区 | Flink CDC 2.0 正式发布，核心改进详解

大数据 flink 数据湖数据结构云数据库 SQL Server

摘要：本文由社区志愿者陈政羽整理，内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性，包括：全量数据的并发读取、checkpoint、无锁读取等重大改进。

大数据技术架构

2021-08-25

2.3K0

HBase原理 | HBase RegionServer宕机数据恢复

TDSQL MySQL 版 hbase 日志数据 unix

HBase采用类LSM的架构体系，数据写入并没有直接写入数据文件，而是会先写入缓存（Memstore），在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失，在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常，这种设计可以从HLog中进行日志回放进行数据补救，保证数据不丢失。HBase故障恢复的最大看点就在于如何通过HLog回放补救丢失数据。

大数据技术架构

2021-08-25

2.5K0

数据湖｜Flink + Iceberg 全场景实时数仓的建设实践

flink 大数据数据处理 sql 数据库

摘要：Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以 Iceberg、Hudi、Delta 为代表的解决方案应运而生，Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表，并提供对 Apache Flink 1.11.x 的集成支持。

大数据技术架构

2021-08-25

3.2K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态