Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1302073

阅读量

248

订阅数

hive面试必备题

存储 hive 函数面试数据

Hive存储的是逻辑上的数据仓库信息，包括表的定义、数据的存储位置（HDFS路径）、分区和表的元数据等。实际的数据文件存储在HDFS上，Hive通过HQL（Hive Query Language）实现对这些数据的SQL-like查询，本质上是将SQL查询转换为MapReduce任务在Hadoop上执行。

Spark学习技巧

2024-04-12

4250

详解数据仓库之拉链表（原理、设计以及在Hive中的实现）

hive 链表设计数据仓库原理

最近发现一本好书，读完感觉讲的非常好，首先安利给大家，国内第一本系统讲解数据血缘的书！点赞！

Spark学习技巧

2023-11-13

4950

漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

hive 链表设计数据仓库原理

拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。

Spark学习技巧

2023-09-07

3210

流批一体在京东的探索与实践

sql hive flink function join

提到流批一体，不得不提传统的大数据平台 —— Lambda 架构。它能够有效地支撑离线和实时的数据开发需求，但它流和批两条数据链路割裂所导致的高开发维护成本以及数据口径不一致是无法忽视的缺陷。

Spark学习技巧

2023-03-21

9120

为什么我们需要 Hive Metastore！

sql apache http hive thrift

IT 中的每个人都与数据打交道，包括前端和后端开发人员、分析师、QA 工程师、产品经理以及许多其他角色的人员。使用的数据和数据处理方法因角色而异，但数据本身往往不是关键。

Spark学习技巧

2023-03-21

5770

数据治理到底能不能干

hive app decimal mysql

规范化模型分层、数据流向和主题划分，从而降低研发成本，增强指标复用性，并提高业务的支撑能力。

Spark学习技巧

2023-03-21

4030

Atlas血缘分析在数据仓库中的实战案例

打包 jar xml hive sql

1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSARY词汇表 1.5 字段搜索 1.5.1查看表字段 1.5.2 追踪字段关系

Spark学习技巧

2022-04-18

2.1K0

HiveSQL技术原理、优化与面试

hive sql 数据库 mapreduce

编译 SQL 的任务是在上节中介绍的 COMPILER（编译器组件）中完成的。Hive将SQL转化为MapReduce任务，整个编译过程分为六个阶段：

Spark学习技巧

2022-04-18

1K0

Hive常用参数调优十二板斧

linux 编程算法 hive mapreduce

hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数

Spark学习技巧

2022-03-14

1.4K0

Hive重点难点：Hive原理&优化&面试

hive sql 数据库 mapreduce

Hive SQL的执行计划描述SQL实际执行的整体轮廓，通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑，掌握了执行逻辑也就能更好地把握程序出现的瓶颈点，从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的，看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。

Spark学习技巧

2022-01-13

1.3K0

用户画像 | 标签数据存储之Hive真实应用

hive 数据库日志数据 sql 存储

本期内容主要介绍使用Hive作为数据仓库的应用场景时，相应的库表结构如何设计。

Spark学习技巧

2022-01-13

1.1K0

Hadoop 生态里，为什么 Hive 活下来了？

hive hadoop 数据库数据分析大数据

Apache Hive 在 2010 年作为 Hadoop 生态系统的一部分崭露头角，当时 Hadoop 是一种新颖而创新的大数据分析方法。Hive 的功能就是实现 Hadoop 的 SQL 接口。它的架构包括两个主要服务：一是查询引擎：负责执行 SQL 语句；二是元存储：负责在 HDFS 中将数据收集虚拟化为表。

Spark学习技巧

2022-01-13

3420

Impala在网易大数据的优化和实践

云数据库 SQL Server 网站 hive 缓存 sql

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享下Impala在网易大数据的优化和实践。

Spark学习技巧

2021-03-05

1.4K0

网易数据湖探索与实践-范欣欣

数据湖 flink 大数据 html hive

导读：今天主要和大家交流的是网易在数据湖Iceberg的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发，介绍对数据湖Iceberg的探索以及实践之路。

Spark学习技巧

2021-03-05

9980

Kylin 最佳实践｜爱奇艺如何处理千亿级数据

hbase TDSQL MySQL 版 hive sql 数据库

爱奇艺发展的大体时间线，2015 年前以离线分析为主，技术上是经典的 Hive + MySQL 方案，但缺点是报表查询比较慢，而且数据时效性差；2016 - 2018 年致力于将查询耗时提升至交互式级别，分为两大类：Kylin 针对固定报表，在维度比较有限的情况下，通过一个预处理，TB 级别数据延时能在秒级，而 Impala 则针对 Ad-hoc 类场景，可以查询任意明细数据；2018 年以后从离线往实时去发力，其中 Kudu 支持实时插入和更新，Druid 支持事件流场景。

Spark学习技巧

2021-03-05

5400

fs.defaultFS 变更，使spark-sql 查询hive失败原因分析

hive spark node.js 大数据

这个是粉丝投稿，很有价值，浪尖在这里给大家分享一下，也使得后面有粉丝遇到相同的问题，可以快速的解决，节省时间。

Spark学习技巧

2021-03-05

8030

SQL on Hadoop性能对比－Hive、Spark SQL、Impala

hive spark 文件存储腾讯云测试服务 sql

Apache Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理，它本身是建立在Apache Hadoop之上。Hive SQL代表的是以传统基于Mapreduce为核心的SQL语言。

Spark学习技巧

2021-03-05

1.5K0

基于 Flink+Iceberg 构建企业级实时数据湖

apache 数据湖数据分析 hive 开源

Apache Flink 是大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时，会碰撞出什么样的火花呢？本次分享主要包括以下核心内容：

Spark学习技巧

2021-03-05

2.1K0

【唯实践】基于Alluxio优化电商平台热点数据访问性能

大数据 hive 数据分析 sql spark

在互联网电商平台上，广告是提升成交总额（Gross Merchandise Volume）和拉取新客的常见途经。在广告系统或广告运营中都需要基于人群数据分析进行定向的用户广告投放。在第三方平台进行广告投放，同样需要使用人群数据分析计算。根据计算分析方的不同，可以分为两类，第一类是基础数据全部发送给第三方广告平台，如抖音，腾讯等，由第三方在投放人群时候进行人群计算并作选择；第二类是人群计算工作在电商平台内部完成，推送给第三方的只是单个的人群包数据（设备数据）。在唯品会，我们目前采用第二类方式进行人群计算投放。我们每天需要完成数万的人群包计算，这些计算都是基于几张位于HDFS的之上的Hive 表完成，这些表每天通常都需要被访问上万次。

Spark学习技巧

2021-03-05

5910

面试|不可不知的十大Hive调优技巧最佳实践

hive mapreduce 数据库数据结构 sql

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目，用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口，它提供了类似于SQL的接口来查询存储在与Hadoop集成的各种数据库和文件系统中的数据。可以说从事数据开发工作，无论是在平时的工作中，还是在面试中，Hive具有举足轻重的地位，尤其是Hive的性能调优方面，不仅能够在工作中提升效率而且还可以在面试中脱颖而出。在本文中，我将分享十个性能优化技术，全文如下。

Spark学习技巧

2021-03-05

1.3K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态