前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谈谈大数据的核心技术

谈谈大数据的核心技术

作者头像
herain
发布2023-09-01 09:14:06
980
发布2023-09-01 09:14:06
举报
文章被收录于专栏:数据指象数据指象

这些都不是大数据的核心技术:Hive、Spark、Mahout、Storm、HBase。只是大数据核心技术的衍生技术。 我们知道大数据的发展经历了或者正在经历着:搜索引擎时代、数据仓库时代、数据挖掘时代、机器学习时代。

大数据的应用场景从点到面,从少数人到大多数人。 离不开计算机硬件技术的迭代和软件技术的发展。 大数据的核心计算不应该是表面的应用,应该是硬件的磁盘阵列,是mr的分布式计算框架,是集群管理的zookeeper,更有数学算法的研究发现。 RAID(磁盘阵列)技术: 以廉价的小磁盘排列 来平替过去昂贵的磁盘。虽然在技术的不断进步下,大磁盘也慢慢的廉价了,但是RDID在数据容错方面一直是一个很好的方案。其中RAID 5模式——容量、性能、安全兼顾。 RAID 5模式是将所有数据及校验值都会分布在所有硬盘上。RAID 5模式不对数据进行备份,而是把数据和与其相对应的奇偶校验信息存储到组成RAID5的各个磁盘上,并且奇偶校验信息和相对应的数据分别存储于不同的磁盘上。当RAID5的一个磁盘数据损坏后,利用剩下的数据和相应的奇偶校验信息去恢复被损坏的数据。磁盘阵列的总容量也为各个硬盘容量之和减去一块硬盘的容量。RAID 5模式以合理的价位提供了最佳的性能和数据安全性,因此目前它很受欢迎。 mr(map-reduce)的计算技术: 我们都知道计算需要使用cpu内,内存相对磁盘不仅空间有限而且也能昂贵,通过任务拆解 层层递进方式 来完成大数据量的计算。mr不能计算不可分任务(比如:斐波那契数列的计算,大数据量数据排序)。 zookeeper与paxos算法: ZooKeeper 是一个典型的基于packs 算法的分布式数据一致性解决方案,分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。 实现了大规模集群的管理。 数学算法: 大数据的处理计算主要有数据分析,数据挖掘与机器学习 都是了从海量数据发现信息转化为有用的知识 消除不确定性提升决策的能力。大数据技术本身是框架,真正的软内核是数学算法,算法上的优化 比技术框架上的优化往往效果更明显。比如:求1,2到100的和,简单的累加计算需要99次,如果我们使用数学上的等差数列公式,一次计算就可以完成。这就是数学算法的魅力。 未来越来越多廉价的是硬件,越来越难得的是优秀的数据算法。

兄弟们,好好学数学,为我国做贡献吧!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-02-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据指象 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档