想应聘大数据分析师? 先看你懂不懂这些

作者   CDA 数据分析师

大数据抽取转换及加载过程(ETL)是大数据的一个重要处理环节,Extract 即是从业务数据库中抽取数据,Transform 即是根据业务逻辑规则对数据进行加工的过程,Load 即是把数据加载到数据仓库的过程。

数据抽取工具实现 db 到 hdfs 数据导入功能,提供高效的分布式并行处理能力,可以采用数据库分区、按字段分区、分页方式并行批处理抽取 db 数据到 hdfs 文件系统中,能有效解决按字段分区数据导致各分区数据不均匀导致作业负载不均衡的问题。

数据采集可以是历史数据采集也可以是实时数据采集,可以采集存储在数据库这种结构化数据,也可以采集各类文本、图片、图像和音频、视频 等等非结构化数据,另外还可以采集结构变化很大的半结构化数据,数据采集完毕后可以直接存储在交通状态分析平台上(存储方式有两种:关系型存储、非关系型存储),经过处理、存储的数据可以进行批量输出、实时输出以及高并发输出接口。

1) 数据采集

支持使用传统ETL的方式从关系数据库(Oracle 、DB2 、SQL Server 、MySQL 、PostgreSQL)获取关系型数据,保存到分布式存储系统中。支持使用自主研发的适配器、组件从 Excel 、文本文件解析数据,保存到分布式存储,以及使用适配器采集视频、音频等。

支持从 Kafka 实时接收业务数据,保存到分布式存储系统中。

支持通过Flume实时获取日志数据包括从 Linux console 、RPC(Thrift-RPC)、文本文件、Unix tail 、syslog 日志系统获取日志数据,并保存到分布式数据库中。

2) 分布式存储和访问

分布式存储系统用于将数据分散存储在多台独立的设备上,以避免传统的集中式存储导致系统性能、可靠性瓶颈的产生的问题,以满足大规模存储应用的需要。

支持采用 HDFS(Hadoop Distribution File System)、Hive 、HBase 作为分布式存储系统。这些 Hadoop 核心组件同时也提供了底层的访问接口,用于数据访问。

3) 数据处理

可为每个作业分配独立的作业任务处理工作线程和任务执行队列,作业之间互不干扰 。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理,以达到节约整体计算时间,大大提高计算效率的目的。

4) 数据分享

支持以 HTTP Restful 接口方式、Web Service 接口方式,以及 JDBC/ODBC 等方式分享数据。可采用批量输出、实时输出和高并发输出的形式,不同的输出形式可以使用不同的大数据组件来完成。

CDA 大数据就业班适合时间充裕、零基础想转行大数据的学员。比如在校数学,经济,计算机,统计等专业教师和学生,想职位晋升、薪酬提高学员系统学习,毕业可推荐相关工作单位。培训师资目前均来自学界、实务界相关领域的讲师、教授、专家、工程师以及企业资深分析师。CDA 大数据课程符合企业用人需求,从大数据编程——数据库编程——大数据仓库——大数据分析方法——数据挖掘算法——大数据真实项目应用——大数据解决方案等,主要软件应用 Hadoop 、HDFS 、MapReduce 、Hbase 、Hive 、Sqoop 等理论知识和大数据平台生态环境,重点学习数据分析基础和数据挖掘经典算法实现,Spark 大数据分析工具和 Python 完美结合让你事半功倍。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2017-05-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据库

DaaS,聊聊关于数据库你可能想知道的一些事儿

作为一名程序猿,如今“大数据”, “AI”,这些词每天都会被媒体360度无死角轰炸我们,让我们很容易浮躁焦虑,但不得不承认,真是因为媒体的传播与吹捧,才推动了整...

1887
来自专栏友弟技术工作室

hadoop介绍

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。

3603
来自专栏FreeBuf

小型互联网企业安全建设的管窥之见

最近发现大家都在讨论一个人的安全部这个话题,两年前在某A轮互联网公司(80人左右的研发团队)做过一段一个人的安全部的经验就简单分享自己的经验。之前也在FreeB...

1073
来自专栏美团技术团队

美团外卖iOS多端复用的推动、支撑与思考

美团外卖2013年11月开始起步,随后高速发展,不断刷新多项行业记录。截止至2018年5月19日,日订单量峰值已超过2000万,是全球规模最大的外卖平台。业务的...

1243
来自专栏我是攻城师

hadoop常见问题解答

4385
来自专栏廖念波的专栏

后台服务标准化运营

一套互联网后台服务的开发和运营涉及到非常多的细节: 访问其他服务模块,服务端IP如何管理?网络报文格式是怎样的?有哪些配置文件?用到哪些第三方的库?针对这一系列...

2.5K0
来自专栏CSDN技术头条

揭秘Sponge:统一Hadoop、Spark、SDS、Swift的大数据操作系统

Sponge是一个简单多层,兼容完全POSIX兼容的分布式NFS、Hadoop,支持对象存储、云存储、SDS、容器机制,集成Spark为计算引擎,基于内存计算技...

3639
来自专栏大数据文摘

【干货】大数据平台建设实践与探讨

3546
来自专栏大数据技术学习

大数据认知阶段——如何学习大数据相关技术

已经看了大数据相关知识一阵时间了,自己也是从新手开始的,所以看了大量的大数据如何入门的技术博客、帖子等,下面记录总结下自己学习的内容。

1835
来自专栏IT大咖说

从选型到实现——企业级云端大数据平台最佳实践

2343

扫码关注云+社区

领取腾讯云代金券