大数据主要学什么,学习大数据你要会什么

- 学习大数据需要的基础

1、java SE、EE(SSM)
    90%的大数据框架都是Java写的
2、MySQL
    SQL on Hadoop
3、Linux
    大数据的框架安装在Linux操作系统上

- 需要学什么

大数据离线分析

    一般处理T+1数据(T:可能是1天、一周、一个月、一年)
    a、Hadoop :一般不选用最新版本,踩坑难解决
        (common、HDES、MapReduce、YARN)
        环境搭建、处理数据的思想
    b、Hive:大数据的数据仓库
        通过写SQL对数据进行操作,类似于MySQL数据库的sql
    c、HBase:基于HDFS的NOSQL数据库
        面向列存储
    d、协作框架:
        sqoop(桥梁:HDFS《==》RDBMS)
        flume:搜集日志文件中的信息
    e、调度框架
        anzkaban
        了解:crotab(Linux自带)
        zeus(Alibaba)
        Oozie(cloudera)
    f、前沿框架扩展:
            kylin、impala、ElasticSearch(ES)


大数据实时分析

    以spark框架为主
    Scala:OOP(面向对象程序设计)+FP(函数是程序设计)
    sparkCore:类比MapReduce
    sparkSQL:类比hive
    sparkStreaming:实时数据处理
    kafka:消息队列
    前沿框架扩展:flink
        阿里巴巴:blink
大数据机器学习

    spark MLlib:机器学习库
    pyspark编程:Python和spark的结合
    推荐系统
    python数据分析
    python机器学习

原文发布于微信公众号 - java工会(javagonghui)

原文发表时间:2018-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

【干货】全球100款大数据工具汇总,入行必备

是第一家针对数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次,其...

16200
来自专栏PPV课数据科学社区

干货 | 全球100款大数据工具汇总(收藏备用)

导读:你熟悉多少工具?今天我们将常用的100款工具推荐给您,若您有更多更好的工具欢迎留言! ? 1、 Talend Open Studio 是第一家针对的数据集...

394130
来自专栏about云

企业该如何构建大数据平台【技术角度】

问题导读 1.作为一个技术人员,你认为该如何搭建大数据平台? 2.构建大数据平台,你认为包括哪些步骤? 3.本文是如何构建大数据平台的? 亲身参与,作...

49590
来自专栏祝威廉

由CarbonData想到了存储和计算的关系

交代下背景,之前花了半天时间试用了下,主要想解决ElasticSearch历史数据查询的问题,之前出现过在ES上查询一个月数据直接把一些节点跑挂了。然后我打算把...

17030
来自专栏钱塘大数据

【干货】全球100款大数据工具汇总,入行必备

1、 Talend Open Studio 是第一家针对数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商...

982150
来自专栏顶级程序员

全球100款大数据工具汇总

来源:网络 ? 1、 Talend Open Studio 是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载...

45360
来自专栏用户2442861的专栏

浅谈Storm流式处理框架

http://blog.csdn.net/fanyun_01/article/details/50921678

15220
来自专栏大数据文摘

资源 | 全球100款大数据工具汇总,入行必备

40020
来自专栏大数据

大数据关键技术分析

古代,人们用牛来拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,在面对计算能力不足时,我们也应尝试着结合使用更多的计算机系统。 Hadoo...

20760
来自专栏机器学习AI算法工程

R语言为Hadoop集群数据统计分析带来革命性变化

R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力。特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上。 R语言是主要...

31970

扫码关注云+社区

领取腾讯云代金券