除了Hadoop,其他6个你必须知道的热门大数据技术

原文来自 Cabot Technology Solutions

编译 CDA 编译团队

本文为  CDA 数据分析师原创作品,转载需授权

你知道新的市场领导者和曾经的领导者之间的关键区别是什么吗?

那就是“数据管理”。任何无法处理数据并将其投入使用的企业,很可能会让位给那些能够更好处理数据的。

事实上,大数据和其流动性的力量能促使企业发展。

大数据是大量数据的术语。由于数据的来源渠道众多,导致其太多样,太庞大,传统技术难以处理。这使得利用技术和基础设施对其进行有效处理十分重要。

这些数据必须通过计算来分析,以揭示模式和趋势,从而有助于市场和推广活动。

以下是一些企业机构利用大数据的例子:

• 政府组织通过紧跟社交媒体的动向,从而了解新疾病的出现和爆发的信息。

• 石油和天然气公司将钻探设备与传感器集成在一起,以确保安全和促进更有效的钻探。

• 零售商紧跟网络点击动向,并识别行为趋势来从而改进广告活动。

下面,让我们来看一下目前可以促进商务的流行大数据技术:

1. Apache Spark

Apache Spark 作为大型数据处理的最快和通用的引擎,具备流媒体、机器学习、图形处理和 SQL 支持的内置模块。它支持所有重要的大数据语言,包括 Python、Java、R 和 Scala。

它补充了 Hadoop 最初出现的主要意图。数据处理中的主要关注点是速度,所以需要减少查询间的等待时间和运行程序所需的时间。

尽管 Spark 被用来加速 Hadoop 的计算软件过程,但它并不是后者的扩展。实际上,Spark 使用 Hadoop 有两个主要目的——存储和处理。

用例: Apache Spark 对旨在实时跟踪欺诈性交易的公司来说是一大福音,例如,金融机构、电子商务行业和医疗保健。假设你的钱包丢了,同时信用卡被盗刷了一大笔钱,那么该技术可以帮助你及时掌握卡被盗刷的时间和地点。

2. Apache Flink

如果你知道 Apache Spark 和 Apache Hadoop,那么你很可以也听过 Apache Flink 。Flink 是由德国柏林工业大学的 Volker Markl 教授创建的一个社区驱动开源框架。在德语中,Flink 的意思是“敏捷的”,具有高性能和极其精确的数据流。

Flink 的功能受到 MPP 数据库技术(如声明性、查询优化器、并行内存、外核算法)和Hadoop MapReduce 技术(如大规模扩展、用户定义函数、阅读模式)等功能的启发。

3. NiFi

NiFi 是一种强大且可拓展的工具,它能够以最小的编码和舒适的界面来存储和处理来自各种数据源的数据。这还不是全部,它还可以轻松地不同系统之间的数据流自动化。如果 NiFi 不包含你需要的任何源,那么通过简洁的 Java 代码你可以编写自己的处理器。

NiFi 的专长在于数据提取,这是过滤数据的一个非常有用的手段。由于 NiFi 是美国国家安全局的项目,其安全性也是值得称道的。

4. Kafka

Kafka 是必不可少的,因为它是各种系统之间的强大粘合剂,从 Spark,NiFi 到第三方工具。可以实现高效的数据流实时处理。Kafka 具有开放源码,可水平伸缩,有容错能力,快速安全的特点。

作为一个分布式系统,Kafka 存储消息在不同主题中,并且主题本身在不同的节点上进行分区和复制。

当 Kafka 最初是建立在 LinkedIn 的分布式消息系统,但如今是 Apache 软件基金会的一部分,并被成千上万的公司使用。

用例: Pinterest(照片分享网站,堪称图片版的Twitter) 使用 Apache Kafka。该公司建立了名为 Secor 的平台,使用 Kafka、Storm 和 Hadoop 来进行实时数据分析,并将数据输入到 MemSQL 中。

5. Apache Samza

Apache Samza 主要目的是为了扩展 Kafka 的能力,并集成了容错、持久消息、简单 API、托管状态、可扩展、处理器隔离和可伸缩的特性。

它使用 Apache Hadoop YARN 用于容错,同时使用 Kafka 进行通讯。因此,可以说它是一个分布式流处理框架。它还提供了一个可插入的 API 来运行 Samza 和其他通讯系统。

6. Cloud Dataflow

Cloud Dataflow 是谷歌的云数据处理服务,它集成了基于批处理和流数据处理任务的简单编程模型。

使用这个工具,无需担心操作任务,包括性能优化和资源管理。通过其完全托管的服务,可以动态地提供资源以保持较高的利用率,同时使延迟最小化。

同时通过其统一编程模型方法,无需担心编程模型转换成本的。这种方法有助于批量和连续的流处理,使其易于表达计算需求,同时无需担心数据源。

结论

大数据生态系统不断发展,新技术频频出现,其中许多技术进一步发展,超出了 hadoop - spark 集群。这些工具可以用来确保与安全和管理的无缝工作。

数据工程师需要利用这些工具来提取、清理和设置数据模式,以帮助数据科学家彻底地探究和检查它们,并构建模型。

ref:

https://hackernoon.com/x-popular-big-data-technologies-that-you-must-know-813452f610b

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2017-06-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏WeTest质量开放平台团队的专栏

【干货预警】kafka+sparkstreaming搭建流计算引擎

周期性拉取增量时间段内,各词在各渠道内的索引数据,然后进行分时频次统计,复杂度:如果词库大小增长到10w,渠道数达到5000,那么就需要5亿次/轮的索引查询开销...

1083
来自专栏大数据和云计算技术

新数仓系列:Hbase国内开发者生存现状(2)

大数据前几年各种概念争论很多,NoSQL/NewSQL,CAP/BASE概念一堆堆的,现在这股热潮被AI接过去了。大数据真正落地到车联网,分控,各种数据分析等等...

5116
来自专栏hadoop学习

学习Hadoop大数据基础框架

什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,...

1737
来自专栏华章科技

大数据圈盘点:你不知道的15个新技术

下面一起来看看吸引眼球的十五项大数据公告。虽然罗列了很多,但还不是全部内容,只是最近在加利福尼亚州圣何塞市Strata + Hadoop World大会上亮相的...

881
来自专栏java一日一条

为什么我要写自己的框架?

其实说白了框架就是使用别人造好的轮子。在软件开发里面就是command+C/command+V。

981
来自专栏新智元

谷歌强力推出数据集搜索!Dataset Search神器重磅来袭

还记得曾经的你,在做科研的时候,为了得到一份儿数据集,绞尽脑汁各种百度、各种google,但结果往往一无所获。从今儿起,再也不用担心这个问题了!

1391
来自专栏云计算D1net

主流云技术解读:重点不在开发而在架构

云技术可以使用的语言有java,c++等。云技术的开发,并没有发展什么新语言,而是在其他语言的基础上,比如Java语言。与其他技术,最显著的区别,不是在开发上,...

3307
来自专栏编程坑太多

『高级篇』docker容器来说微服务导学(一)

PS:整体把握微服务,清晰理解微服务的各种概念,如果开发微服务,技术栈之间的微服务通信,怎么样把一个服务运行在docker容器里,服务之间是如何建立连接的,多种...

1655
来自专栏灯塔大数据

深度|Google和Linkedin的老司机是如何管理海量数据的

Google的论文整体描述十分详细,可以作为理论来学习,LinkedIn已经开源了一个版本的系统,可以看成最佳实践。两者结合起来,还是很能拓展思路的。 标题有点...

55412
来自专栏SDNLAB

MEF正在批准LSO Sonata API,以支持SDN业务

用于标准化生命周期服务编排的LSO Sonata API是本周MEF年会的热门话题之一。 LSO Sonata API使用程序化的API到API接口,允许服务提...

652

扫码关注云+社区