首页
学习
活动
专区
工具
TVP
发布

五分钟学大数据

专栏作者
108
文章
193040
阅读量
55
订阅数
大数据架构、高性能、数据治理面试题及答案
4. Bloom Filter(BF)是一种空间效率很高的随机数据结构,下面描述错误的是__
五分钟学大数据
2022-12-29
1.7K0
数据仓库:详解维度建模之事实表
一、事实表基础 二、事实表设计规则 三、事实表设计方法 四、有事实的事实表 五、无事实的事实表 六、聚集型事实表
五分钟学大数据
2022-12-29
1.4K0
9000字详解数据治理和数据分类分级
我们要如何看待数据这个话题。数据大爆炸已经成为了一个趋势,随着数字化转型的步伐逐步加快,数据的诞生不断加快。我们已经真正步入到一个大数据的时代。每个人每时每刻都在产生大量的数据,随着移动互联网的应用和传感网络的普及,我们的数据呈海量式增长,根据IDC发布的报告中统计,到2025年,全球的数据量将达到史无前例的163ZB。
五分钟学大数据
2022-12-29
1K0
数据治理体系全面指南
好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。
五分钟学大数据
2022-10-05
1K0
浅谈Spark在大数据开发中的一些最佳实践
eBay 智能营销部门致力于打造数据驱动的业务智能中台,以支持业务部门快速开展营销活动。目前在我们正在构建一个基于eBay站外营销的业务全渠道漏斗分析指标,涉及近十个营销渠道、数十张数据源表,每天处理的数据达到上百TB。由于业务复杂、数据源异构、指标计算逻辑频繁变更、数据体量巨大,如何快速完成数据处理开发任务是一个巨大的挑战。在长时间的生产实践中,我们总结了一套基于Scala开发Spark任务的可行规范,来帮助我们写出高可读性、高可维护性和高质量的代码,提升整体开发效率。
五分钟学大数据
2022-10-05
1.4K0
数据仓库指标体系搭建实战
业务板块定义原则:业务逻辑层面进行抽象、物理组织架构层面进行细分,可根据实际业务情况进行层级分拆细化,层级分级建议进行最多进行三级分拆,一级细分可公司层面统一规范确定,二级及后续拆分可根据业务线实际业务进行拆分。
五分钟学大数据
2022-10-05
1.1K0
最容易出错的 Hive Sql 详解
在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。
五分钟学大数据
2022-10-05
1.1K0
数据开发流程规范及数据监控
在大数据时代,规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范,可以切实提高研发效率,保障数据研发工作有条不紊地运作。而不完善的研发流程,会降低研发效率,增加成本与风险。
五分钟学大数据
2022-10-05
1.4K0
一文看懂大数据生态圈完整知识体系
随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。
五分钟学大数据
2022-10-05
1.7K0
Hive、SparkSQL是如何决定写文件的数量的?
Hive自身和Spark都提供了对Hive的SQL支持,用SQL的交互方式操作Hive底层的HDFS文件,两种方式在写文件的时候有一些区别:
五分钟学大数据
2022-10-05
5490
如何在 Pandas DataFrame中重命名列?
分析人员重命名列名称的动机之一是确保这些列名称是有效的Python属性名称。这意味着列名称不能以数字开头,而是带下画线的小写字母数字。好的列名称还应该是描述性的,言简意赅,并且不应与现有的DataFrame或Series属性冲突。
五分钟学大数据
2022-10-05
5.4K0
Spark数据倾斜解决
Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。
五分钟学大数据
2022-10-05
6570
Linux性能问题分析流程与性能优化思路
RED方法:监控服务的请求数(Rate)、错误数(Errors)、响应时间(Duration)。Weave Cloud在监控微服务性能时提出的思路。
五分钟学大数据
2022-10-05
1.4K0
Hive参数与性能企业级调优(建议收藏)
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。
五分钟学大数据
2022-09-30
1K0
最强 Elastic Stack 保姆级教程(一)
首先我们谈几个公司,如雷贯耳的:百度、谷歌、维基百科;这些公司都有一个相似性就是门户网站,可以提供我们通过关键字搜索,然后快速的检索出我们想要的信息。
五分钟学大数据
2022-05-22
3K0
数据仓库架构落地版(PPT)
正文开始: 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 --END--
五分钟学大数据
2022-05-22
8400
开源大数据OLAP引擎最佳实践
一、开源OLAP综述 二、开源数仓解决方案 三、ClickHouse介绍 四、StarRocks介绍 五、Trino介绍 六、客户案例
五分钟学大数据
2022-05-22
1.9K0
我做了一个大数据学习网站!
最近搞了一个大数据学习网站,前几天在朋友圈小范围测试了下,今天正式上线啦,网站的目标就是打造一个体系化的大数据学习平台,所有的内容都是连贯的,系统化的,下面是网站的详细介绍。
五分钟学大数据
2022-05-22
1.6K1
Spark SQL底层执行流程详解(好文收藏)
一、Apache Spark 二、Spark SQL发展历程 三、Spark SQL底层执行原理 四、Catalyst 的两大优化
五分钟学大数据
2022-05-22
3.2K0
Spark内存管理详解(好文收藏)
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念。
五分钟学大数据
2022-05-22
6040
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档