五分钟学大数据

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

4. Bloom Filter（BF）是一种空间效率很高的随机数据结构，下面描述错误的是__

大数据架构、高性能、数据治理面试题及答案

一、事实表基础
二、事实表设计规则
三、事实表设计方法
四、有事实的事实表
五、无事实的事实表
六、聚集型事实表

数据仓库：详解维度建模之事实表

我们要如何看待数据这个话题。数据大爆炸已经成为了一个趋势，随着数字化转型的步伐逐步加快，数据的诞生不断加快。我们已经真正步入到一个大数据的时代。每个人每时每刻都在产生大量的数据，随着移动互联网的应用和传感网络的普及，我们的数据呈海量式增长，根据IDC发布的报告中统计，到2025年，全球的数据量将达到史无前例的163ZB。

9000字详解数据治理和数据分类分级

好的数据治理体系可以盘活整条数据链路，最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。

数据治理体系全面指南

eBay 智能营销部门致力于打造数据驱动的业务智能中台，以支持业务部门快速开展营销活动。目前在我们正在构建一个基于eBay站外营销的业务全渠道漏斗分析指标，涉及近十个营销渠道、数十张数据源表，每天处理的数据达到上百TB。由于业务复杂、数据源异构、指标计算逻辑频繁变更、数据体量巨大，如何快速完成数据处理开发任务是一个巨大的挑战。在长时间的生产实践中，我们总结了一套基于Scala开发Spark任务的可行规范，来帮助我们写出高可读性、高可维护性和高质量的代码，提升整体开发效率。

浅谈Spark在大数据开发中的一些最佳实践

业务板块定义原则：业务逻辑层面进行抽象、物理组织架构层面进行细分，可根据实际业务情况进行层级分拆细化，层级分级建议进行最多进行三级分拆，一级细分可公司层面统一规范确定，二级及后续拆分可根据业务线实际业务进行拆分。

数据仓库指标体系搭建实战

在进行数仓搭建和数据分析时最常用的就是 sql，其语法简洁明了，易于理解，目前大数据领域的几大主流框架全部都支持sql语法，包括 hive，spark，flink等，所以sql在大数据领域有着不可替代的作用，需要我们重点掌握。

最容易出错的 Hive Sql 详解

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会降低研发效率，增加成本与风险。

数据开发流程规范及数据监控

随着大数据行业的发展，大数据生态圈中相关的技术也在一直迭代进步，作者有幸亲身经历了国内大数据行业从零到一的发展历程，通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。

一文看懂大数据生态圈完整知识体系

Hive自身和Spark都提供了对Hive的SQL支持，用SQL的交互方式操作Hive底层的HDFS文件，两种方式在写文件的时候有一些区别：

Hive、SparkSQL是如何决定写文件的数量的？

分析人员重命名列名称的动机之一是确保这些列名称是有效的Python属性名称。这意味着列名称不能以数字开头，而是带下画线的小写字母数字。好的列名称还应该是描述性的，言简意赅，并且不应与现有的DataFrame或Series属性冲突。

如何在 Pandas DataFrame中重命名列？

Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。

Spark数据倾斜解决

RED方法：监控服务的请求数（Rate）、错误数（Errors）、响应时间（Duration）。Weave Cloud在监控微服务性能时提出的思路。

Linux性能问题分析流程与性能优化思路

Hive作为大数据平台举足轻重的框架，以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。

Hive参数与性能企业级调优（建议收藏）

首先我们谈几个公司，如雷贯耳的：百度、谷歌、维基百科；这些公司都有一个相似性就是门户网站，可以提供我们通过关键字搜索，然后快速的检索出我们想要的信息。

最强 Elastic Stack 保姆级教程（一）

正文开始：                                     --END--

数据仓库架构落地版(PPT)

一、开源OLAP综述
二、开源数仓解决方案
三、ClickHouse介绍
四、StarRocks介绍
五、Trino介绍
六、客户案例


开源大数据OLAP引擎最佳实践

最近搞了一个大数据学习网站，前几天在朋友圈小范围测试了下，今天正式上线啦，网站的目标就是打造一个体系化的大数据学习平台，所有的内容都是连贯的，系统化的，下面是网站的详细介绍。

我做了一个大数据学习网站！

一、Apache Spark
二、Spark SQL发展历程
三、Spark SQL底层执行原理
四、Catalyst 的两大优化

Spark SQL底层执行流程详解（好文收藏）

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuffle、JVM 等相关概念。

Spark内存管理详解（好文收藏）

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了五分钟学大数据专栏，为你提供了五分钟学大数据的相关文章，致力于帮助开发者快速成长与发展。

五分钟学大数据

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐