腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏作者

810

文章

1222082

阅读量

247

订阅数

HiveSQL技术原理、优化与面试

hive sql 数据库 mapreduce

编译 SQL 的任务是在上节中介绍的 COMPILER（编译器组件）中完成的。Hive将SQL转化为MapReduce任务，整个编译过程分为六个阶段：

Spark学习技巧

2022-04-18

5840

Hive常用参数调优十二板斧

linux 编程算法 hive mapreduce

hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数

Spark学习技巧

2022-03-14

1.2K0

Hive重点难点：Hive原理&优化&面试

hive sql 数据库 mapreduce

Hive SQL的执行计划描述SQL实际执行的整体轮廓，通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑，掌握了执行逻辑也就能更好地把握程序出现的瓶颈点，从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的，看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。

Spark学习技巧

2022-01-13

1.2K0

Hive 中的排序和开窗函数

排序操作是一个比较常见的操作，尤其是在数据分析的时候，我们往往需要对数据进行排序，hive 中和排序相关的有四个关键字，今天我们就看一下，它们都是什么作用。

Spark学习技巧

2022-01-13

1.8K0

大数据平台是否更应该容器化?

kubernetes 容器 https 网络安全 mapreduce

作者颜卫，腾讯高级后台开发工程师，专注于Kubernetes大规模集群管理和资源调度，有过万级集群的管理运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。

Spark学习技巧

2021-03-05

2.8K1

面试|不可不知的十大Hive调优技巧最佳实践

hive mapreduce 数据库数据结构 sql

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目，用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口，它提供了类似于SQL的接口来查询存储在与Hadoop集成的各种数据库和文件系统中的数据。可以说从事数据开发工作，无论是在平时的工作中，还是在面试中，Hive具有举足轻重的地位，尤其是Hive的性能调优方面，不仅能够在工作中提升效率而且还可以在面试中脱颖而出。在本文中，我将分享十个性能优化技术，全文如下。

Spark学习技巧

2021-03-05

1.2K0

Hbase Bulkload 原理｜面试必备

hbase TDSQL MySQL 版 mapreduce yarn node.js

下面假设我们有一个 CSV 文件，是存储用户购买记录的。它一共有三列， order_id，consumer，product。我们需要将这个文件导入到Hbase里，其中 order_id 作为Hbase 的 row key。

Spark学习技巧

2021-03-05

2.1K0

Hive鲜为人知的宝石-Hooks

linux hive hadoop mapreduce http

Hive为Hadoop提供了一个SQL接口。Hive可以被认为是一种编译器，它将SQL（严格来说，Hive查询语言 - HQL，SQL的一种变体）转换为一组Mapreduce / Tez / Spark作业。因此，Hive非常有助于非程序员使用Hadoop基础架构。原来，Hive只有一个引擎，即MapReduce。但是在最新版本中，Hive还支持Spark和Tez作为执行引擎。这使得Hive成为探索性数据分析的绝佳工具。

Spark学习技巧

2020-07-31

2.5K0

干货 | 实践Hadoop MapReduce 任务的性能翻倍之路

hadoop unix mapreduce 日志数据 sql

摘要：eBay的CAL（Central Application Logging）系统负责收集eBay各种应用程序的日志数据，并且通过Hadoop MapReduce job生成日志报告，应用程序开发人员与运维人员通过报告可获得以下内容：

Spark学习技巧

2019-12-27

5880

面试必备|spark 高层通用调优

文件存储 mapreduce spark jvm

如果并行度设置的不足，那么就会导致集群浪费。Spark自动会根据文件的大小，是否可分割等因素来设置map的数目(后面会详细讲解输入格式，同时详细讲解各种输入的map数的决定)。对于分布式reduce操作，例如groupbykey和reducebykey，默认它使用的是分区数最大的父RDD的分区数决定reduce的数目。你也可以通过设置spark.default.parallelism来改变默认值，建议值是每个CPU执行2-3个tasks。

Spark学习技巧

2019-07-15

8960

深入理解Apache Flink核心技术

apache 大数据 mapreduce

Apache Flink（下简称Flink）项目是大数据处理领域最近冉冉升起的一颗新星，其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性，希望能够帮助读者对Flink有更加深入的了解，对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解，同时熟悉流处理与批处理的基本概念。 Flink简介 Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等

Spark学习技巧

2018-06-22

2K0

Mapreduce shuffle详解

mapreduce 存储

Mapreduce shuffle详解 Mapreduce确保每个reducer的的输入都是按键排序的。系统执行排序的过程(即将map输出作为输入传给reducer)成为shuffle。从多个方面来

Spark学习技巧

2018-03-20

1.3K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态