专栏首页加米谷大数据成为大数据工程师必备的技能有哪些?(上)

成为大数据工程师必备的技能有哪些?(上)

大数据中有多种岗位,有的偏向开发,有的偏向运维,有的偏向数据分析与挖掘。

必备技能11条

Linux 基本操作

Java/Python

Hadoop(HDFS+MapReduce+Yarn )

HBase(JavaAPI操作+Phoenix )

Hive(Hql基本操作和原理理解)

Kafka

Storm/JStorm

Scala

Spark (Core+sparksql+Spark streaming )

辅助小工具(Sqoop/Flume/Oozie/Hue等)

大数据核心知识

Hadoop

推荐书籍:《Hadoop 权威指南》

HDFS:

HDFS的概念和特性

HDFS的shell操作

HDFS的工作机制

HDFS的Java应用开发

MapReduce:

MapReduce程序运行流程解析

MapTask并发数的决定机制

MapReduce中的combiner组件应用

MapReduce中的序列化框架及应用

MapReduce中的排序

MapReduce中的自定义分区实现

MapReduce的shuffle机制

MapReduce利用数据压缩进行优化

MapReduce程序与YARN之间的关系

MapReduce参数优化

运行WordCount示例程序

了解MapReduce内部的运行机制

MapReduce的Java应用开发

官网:

http://hadoop.apache.org/

中文文档:

http://hadoop.apache.org/docs/r1.0.4/cn/

Hive

推荐书籍:《Hive开发指南》

Hive 基本概念:

Hive 应用场景

Hive 与hadoop的关系

Hive 与传统数据库对比

Hive 的数据存储机制

Hive 基本操作:

Hive 中的DDL操作

在Hive 中如何实现高效的JOIN查询

Hive 的内置函数应用

Hive shell的高级使用方式

Hive 常用参数配置

Hive 自定义函数和Transform的使用技巧

Hive UDF/UDAF开发实例

Hive 执行过程分析及优化策略

官网:

https://hive.apache.org/

中文入门文档:

http://www.aboutyun.com/thread-11873-1-1.html

HBase

推荐书籍:《HBase权威指南》

hbase简介

habse安装

hbase数据模型

hbase命令

hbase开发

hbase原理

官网:

http://hbase.apache.org/

中文文档:

http://abloz.com/hbase/book.html

本文分享自微信公众号 - 加米谷大数据(DtinoneBD)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • hdfs hbase hive hbase分别的适用场景

    不想用程序语言开发MapReduce的朋友,熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。

    加米谷大数据
  • hdfs hbase hive hbase分别的适用场景

    不想用程序语言开发MapReduce的朋友,熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。

    加米谷大数据
  • 技术分享 | 提升Hadoop性能和利用率你知道有哪些吗?

    时下流行的词汇是大数据和Hadoop。了解大数据的知道Hadoop有三个组件,即HDFS、MapReduce和Yarn。 HDFS代表Hadoop分布式文件系统...

    加米谷大数据
  • Kubernetes系列学习文章 - 什么是K8S?(二)

    | 导语 上一篇文章我们讲解了什么是“容器云” ,也许你会问我们用什么技术手段来实现容器云?很简单,就是上篇文章结尾说的 "docker + kubernet...

    宝哥@devops运维
  • 0505-使用Apache Hive3实现跨数据库的联邦查询

    如今的企业内部一般都有多个系统用于数据存储和数据处理。这些不同的系统各自服务于不同的应用场景或案例。除了传统的RDBMS如Oracle DB,Teradata或...

    Fayson
  • Hive Hooks介绍

    Hive作为SQL on Hadoop最稳定、应用最广泛的查询引擎被大家所熟知。但是由于基于MapReduce,查询执行速度太慢而逐步引入其他的近实时查询引擎如...

    叁金
  • JAVA之线程间如何通信(五)

    1.文件共享 2.网络共享 3.变量共享 4.jdk提供的线程协调API (重点)

    IT故事会
  • 教你如何用机器学习预测《权利的游戏》中的叛徒

    几个月之前,Airbnb发布了一篇博文,在这篇文章中作者向读者介绍了他们的数据科学家建立一个机器学习模型来保护自己的用户免遭来自恶意行为的欺诈危害。如果我们将...

    机器学习AI算法工程
  • MediaPlayer(四)--MediaPlayer()流程

    先从源头开始看 frameworks/base/media/java/android/media/MediaPlayer.java

    小蚂蚁与大象
  • python 3文件内容替换

    py3study

扫码关注云+社区

领取腾讯云代金券