大数据技术架构

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

Scrapy一个比较完整的爬虫框架，包含了爬取任务的调度、多个线程同时爬取（异步多线程，不用等一个请求完成后才开始另一个请求）、自动过滤重复的链接等功能。使用者通过定义比较简单的爬虫类（例如目标网址、爬取的具体页面元素、存储的格式字段、数据清理逻辑），剩余的就可以交给scrapy完成爬取工作。

Scrapy源码解读

诺亚控股有限公司以“诺亚财富”为品牌，源起于中国，是首家在港美两地上市的中国独立财富管理机构，首家开创了财富管理和资产管理的双轮驱动业务模式，同时也是国内首家获得标准普尔“投资级”评级的财富管理公司，公司业务涵盖财富管理、资产管理和其他业务。诺亚数据智能部门负责公司大数据体系框架建设，主要工作是支撑日常的BI分析，数据看板，人群画像，自助分析等场景。

诺亚财富 X Hologres ： 统一OLAP分析引擎，全面打造金融数字化分析平台

自2019年12月发布1.0版本以来，社区一直在积极构建一个全面的开源低延迟变更数据捕获(CDC)平台。在过去的三年里，我们扩展了Debezium的产品组合，包括用于Oracle的稳定连接器、社区主导的Vitess连接器、增量快照的引入、多分区支持等等。在社区活跃贡献者和提交者的帮助下，Debezium成为CDC领域事实上的领导者，部署在多个行业的许多组织的生产环境中，使用数百个连接器将数据更改从数千个数据库平台输出到实时流。

Debezium 2.0.0.Final Released

最近， Scott Carey 发表了一篇调查文章，喊出了一些开发者的心声：“扯淡的 DevOps，我们开发者根本不想做运维！”除此之外，软件工程师兼 DevOps 评论员 Sid Palas 也在推特上写道，“DevOps 已死，平台工程才是未来。”

DevOps 已死？不重要！平台工程才是未来

我们很自豪地代表 Apache Kafka 社区宣布发布 Apache Kafka® 3.3。3.3 版本包含许多新功能和改进。这篇博文将重点介绍一些更突出的功能。有关更改的完整列表，请务必查看发行说明。

重磅！Apache Kafka 3.3 发布！

Cube是无界面商业智能平台。它帮助数据工程师和应用程序开发人员从现代数据存储中访问数据，将其组织为一致的定义，并将其交付给每个应用程序。Cube 旨在与所有支持 SQL 的数据源一起工作，包括像 Snowflake 或 Google BigQuery 这样的云数据仓库、像 Presto 或 Amazon Athena 这样的查询引擎，以及像 Postgres 这样的应用程序数据库。Cube 内置关系缓存引擎，为 API 请求提供亚秒级延迟和高并发。

Cube.js 试试这个新的数据分析开源工具

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

背景介绍，因为需求是外部数据和内部生产数据之间需要通步，因此dataworks的数据同步模块的源端和目标是不支持多网络环境，要么公网，要么内网，因此这种需求我们的dataworks是不能使用的，我们调研了两个工具，一个是dataxweb ,一个是dolphinscheduler ，今天的篇幅主要讲解一下搭建的dataxweb的流程。

分布式数据同步工具之DataX-Web部署使用

demo数据采用python中faker进行构造，主要生成关系数据、目标客户数据。

基于networkx的隐性集团关系识别模型

如果你的工作是从事数据挖掘、数据仓库建设或者信息系统开发/维护，有没有曾经遇到过如下的烦恼？

数据血缘分析-Python代码的智能解析

数据处理逻辑多，脚本相互依赖强，运维管理监测难，怎么办？！为了解决这些问题，最近比较深入研究Airflow的使用方法，重点参考了官方文档和Data Pipelines with Apache Airflow，特此笔记，跟大家分享共勉。

Airflow 实践笔记-从入门到精通二

Airflow 实践笔记-从入门到精通一

开发者利用jdbc连接hiveserver2（或者利用jdbc连接 spark HiveThriftServer2，由于两者都是提供jdbc连接到hive，因此，后面都统一称为利用jdbc连接hiveserver2），执行简单查询、复杂分析、超复杂分析等不同的sql任务，session并发量还很高（五六百甚至上千的并发），本质上要求大数据平台同时具备oltp的高并发与olap的高分析能力。对于hiveserver2这一类基于hadoop平台的jdbc server而言，非常不适合这种高并发的应用。

Hive调优 | HiveServer2 性能优化与GC优化

Spark常见的问题不外乎OOM。我们首先看一下Spark 的内存模型：Spark在一个Executor中的内存分为三块，一块是execution内存，一块是storage内存，一块是other内存。

Spark调优 | Spark OOM问题常见解决方式

Apache Kafka 是一个分布式开源流平台，被广泛应用于各大互联网公司。Kafka 设计之初被用于消息队列，自 2011 年由 LinkedIn 开源以来，Kafka 迅速从消息队列演变为成熟的事件流处理平台。


Kafka 3.0 重磅发布，有哪些值得关注的特性？

Parquet 是 Hadoop 生态圈中主流的列式存储格式，最早是由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。


干货 | 再来聊一聊 Parquet 列式存储格式

 Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

Spark性能调优指北：性能优化和故障处理

摘要：本文由社区志愿者陈政羽整理，内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性，包括：全量数据的并发读取、checkpoint、无锁读取等重大改进。

Flink社区 | Flink CDC 2.0 正式发布，核心改进详解

HBase采用类LSM的架构体系，数据写入并没有直接写入数据文件，而是会先写入缓存（Memstore），在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失，在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常，这种设计可以从HLog中进行日志回放进行数据补救，保证数据不丢失。HBase故障恢复的最大看点就在于如何通过HLog回放补救丢失数据。


HBase原理 | HBase RegionServer宕机数据恢复

摘要：Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以 Iceberg、Hudi、Delta 为代表的解决方案应运而生，Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表，并提供对 Apache Flink 1.11.x  的集成支持。

数据湖｜Flink + Iceberg  全场景实时数仓的建设实践

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据技术架构专栏，为你提供了大数据技术架构的相关文章，致力于帮助开发者快速成长与发展。

大数据技术架构

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐