异构数据存储

文章来源：企鹅号 - 大宇天飞

如前文所言，数据是刻画这个世界的描述信息，为了更好的复述我们对客观信息的认知，人类发明了文字，更是发明了录音机、照相机、摄像机，信息从眼神的交流、肢体的碰触，到抽象的语言，再到更抽象的文字，再到各种音视频，人类的交流从必须碰面，实现了跨越地域、跨越时空的突破，也从某种意义上来说经历了简单、复杂、抽象、再具体的过程，而数据的存储，就是凡事种种“跨越”的桥梁。

数据的存储在大数据中有多种形态：1）普适性的HDFS，实现了多种文件格式的分布式存储架构，如Hive，直接引用HDFS的avro、parquet、orcfile、text等文件格式，将自身的一套元数据管理构建其上；如HBase，采用HFile，基于HDFS进行存储；此外，包括各种通用的文件类型，都可以在HDFS上进行存储：JSON、XML、二进制等等。2）全文的代表Lucene，如ES，开箱即用的分布式自管理的全文引擎，使用Lucene实现；如Solr，构建在自有磁盘（可以自己管理对应的主机和磁盘）或HDFS之上，通过改造Lucene，适配了HDFS的存储特点实现；如Search等等。3）自有的一些存储，例如Kudu中的RowSets、Mongodb中的Bson、Redis中的KV存储结构等，这些存储结构有一些可以跟传统格式进行相互的导入导出，有一些仅限在特定的存储引擎中。4）其他的格式，包括一些分析模型、音视频系统中的数据存储格式等。

数据的存储需要解决存储、交换、使用的需求，数据特征的保留往往会根据一定规则进行取舍，这就使得大数据的存储百花齐放百家争鸣，正如这个客观的世界。

发表于: 2019-02-092019-02-09 00:03:40
原文链接：https://kuaibao.qq.com/s/20190209G00OLC00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

异构数据存储

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐