首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

痛并快乐着:浅谈大数据时代的分布式存储架构

从全球知名咨询公司麦肯锡宣称“大数据”时代的到来,时至今日,数据量已经几何倍数的翻增,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。 大数据的第一个特征是数据量大,大数据的起始计量单位至少是P、E甚至ZB级别;第二个特征是数据类型繁多,包括网络日志、音频、视频、图片、地理位置信息等等。同时,海量多类型的数据对数据的处理能力提出了更高的要求,不仅要提供海量的数据存储空间,又要满足多种类文件的高效存储。 目前,解决这种需求最常用的方式就是采用分布式存储系统。 分布式存储存放的数据

07

合并元数据

如同ProtocolBuffer,Avro,Thrift一样,Parquet也是支持元数据合并的。用户可以在一开始就定义一个简单的元数据,然后随着业务需要,逐渐往元数据中添加更多的列。在这种情况下,用户可能会创建多个Parquet文件,有着多个不同的但是却互相兼容的元数据。Parquet数据源支持自动推断出这种情况,并且进行多个Parquet文件的元数据的合并。 因为元数据合并是一种相对耗时的操作,而且在大多数情况下不是一种必要的特性,从Spark 1.5.0版本开始,默认是关闭Parquet文件的自动合并元数据的特性的。可以通过以下两种方式开启Parquet数据源的自动合并元数据的特性: 1、读取Parquet文件时,将数据源的选项,mergeSchema,设置为true 2、使用SQLContext.setConf()方法,将spark.sql.parquet.mergeSchema参数设置为true

01

业界 | 每天1.4亿小时观看时长,Netflix怎样存储这些时间序列数据?

大数据文摘作品 编译:丁慧、笪洁琼、蒋宝尚 网络互联设备的增长带来了大量易于访问的时间序列数据。越来越多的公司对挖掘这些数据感兴趣,从而获取了有价值的信息并做出了相应的数据决策。 近几年技术的进步提高了收集,存储和分析时间序列数据的效率,同时也刺激了人们对这些数据的消费欲望。然而,这种时间序列的爆炸式增长,可能会破坏大多数初始时间序列数据的体系结构。 Netflix作为一家以数据为驱导的公司,对这些挑战并不陌生,多年来致力于寻找如何管理日益增长的数据。我们将分享Netflix如何通过多次扩展来解决时间序列

02

shuffle 中环形缓冲区

shuffle中环形缓冲区使用于map shuffle阶段存放map的缓存数据,当缓冲区的数据达到一定比率(80%)就会将缓冲区的数据刷写到磁盘文件中,在刷盘之前,会对数据分区、排序、合并,对缓冲区的操作是边写入边读取的过程,二者互不影响,提升写入的速率,读写过程就是一个生产者、消费者模式,生产者向环形缓冲区中写入数据,消费者从环形缓冲区中读取数据并且写入磁盘。环形缓冲区在物理上是一组连续的空间地址,在逻辑上是首尾相连的环形空间,通过使用下标实现环形,初始read=write=index=0,read下一个读取位置,write下一次写入位置,index 刷盘的结束位置,每一次写入write++,当缓存达到一定比率,执行读取线程开启,将index=write,那么将读取read~index-1区间的数据写入磁盘,此时write继续接受数据写入,当数据读取完read=index,继续进行下一次读取操作,需要注意当下标达到临界点即缓冲区数组的大小时需要进行下标索引的转换,例如当read=array.length,需要read=0。

05
领券