前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据的三类核心技术

大数据的三类核心技术

作者头像
加米谷大数据
发布2019-11-26 14:40:37
1.1K0
发布2019-11-26 14:40:37
举报
文章被收录于专栏:加米谷大数据加米谷大数据

大数据行业中,主要工作环节包括:

• 大数据采集

• 大数据预处理

• 大数据存储及管理

• 大数据分析及挖掘

• 大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

简单说是这三种:拿数据,算数据,用数据

01

拿数据

大数据的采集与预处理

大数据采集:数据的收集,结构化或者半结构化数据。

大数据预处理:完成对已接收数据的初步辨析、抽取、清洗等操作。

常见的相关技术:

Flume NG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理;

Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到“存储库”中;

Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库中的数据导入到Hadoop中,也可以将Hadoop中的数据导入到关系型数据库中;

Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。

02

算数据

大数据的存储、管理、分析与挖掘

算数据需要计算平台,数据怎么存(HDFS, S3, HBase, Cassandra),怎么算(Hadoop, Spark)。

这部分包含的较多,其中一些重点:

Hadoop:一种通用的分布式系统基础架构,具有多个组件;Hadoop 的生态系统,主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心组件构成;

Spark:专注于在集群中并行处理数据,使用RDD(弹性分布式数据集)处理RAM中的数据。

Storm:对源源导入的数据流进行持续不断的处理,随时得出增量结果。

HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。

MapReduce:作为Hadoop的查询引擎,用于大规模数据集的并行计算

Hive: 的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。

03

用数据

大数据的展现和应用

数据可视化:对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。相关技术如:

Python爬虫:掌握requests库、lxml库(或beautifulsoup4库)的使用基本上可以入门了;

熟练操作数据分析工具(比如Excel、SPSS、SAS等);

掌握数据分析思路,能将数据进行可视化,能够对分析结果进行正确的业务数据解读等。

大数据的应用:大数据的实际应用场景,如金融大数据、教育大数据、餐饮大数据、交通大数据、工业大数据、农业大数据等。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档