首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

CarbonData实践(一)

前言 CarbonData 拥有不错的明细查询能力,比如简单的where条件过滤,性能大概是Parquet的20倍。...CarbonData 在这块和Parquet 有一定的差距。...环境 Spark 1.6.0 + CarbonData 1.0.0 你可以通过这篇文章的介绍 迅速搭建一个基于CarbonData存储,以Spark为计算引擎的 Rest Service 服务。...利用好MDK的索引特性,尽量将表左边的字段作为过滤条件 CarbonData的一些调优 有一种情况,就是单条记录非常小,那么一个CarbonData文件哪怕是几十M,那么可能也包含了几百万条记录。...CarbonData有非常好的剪枝能力,可以不用去touch 那些不包含数据的block文件,所以这个时候可以让CarbonData文件小一点,经过剪枝后,虽然可能文件会多一些,但是每个文件小,并且能够提升并行度

84350

Apache CarbonData 简介

Apache CarbonData 是一种索引列式数据格式,专为快速分析和实时洞察至关重要的大数据场景而开发。...Apache CarbonData 利用其先进的索引功能提供卓越的查询性能。...由于其先进的数据预处理功能,CarbonData 中的数据加载操作更加高效。 可扩展性和兼容性 Apache CarbonData 具有出色的可扩展性,可以跨各种硬件设置有效管理海量数据集。...二、Apache CarbonData 的结构 多层结构: Apache CarbonData 具有多层结构,包括表、段、块和页级别。...数据压缩和编码: Apache CarbonData 应用各种先进的编码技术来压缩数据,而这些技术在旧格式中是不可用的。CarbonData 的列式存储格式还可以实现卓越的数据压缩。

32520
您找到你想要的搜索结果了吗?
是的
没有找到

CarbonData使用更简单

CarbonData 是什么 引用官方的说法: Apache CarbonData是一种新的高性能数据存储格式,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案...CarbonData的使用 我之前写过一篇使用的文章。CarbonData集群模式体验。到0.3.0版本,已经把kettle去掉了,并且我提交的PR已经能够让其在Spark Streaming中运行。...\ -streaming.enableCarbonDataSupport true \ -streaming.carbondata.store /tmp/carbondata/store \ -streaming.carbondata.meta.../tmp/carbondata/meta 如果/tmp/carbondata/store/default/ 目录生成了文件就代表数据已经写入。.../tmp/carbondata/store \ -streaming.carbondata.meta /tmp/carbondata/meta 查询方式: curl --request POST \

82220

Carbondata源码系列(一)文件生成过程

在滴滴的两年一直在加班,人也变懒了,就很少再写博客了,最近在进行Carbondata和hive集成方面的工作,于是乎需要对Carbondata进行深入的研究。...于是新开一个系列,记录自己学习Carbondata的点点滴滴。...1、环境准备 当前版本是1.2.0-SNAPSHOT git clone https://github.com/apache/carbondata.git 先用IDEA打开carbondata的代码,点击上方的...Writes the sorted data in carbondata format....并进行格式转换,这一步骤是读取csv文件服务的,dataframe的数据格式都已经处理过了 2、根据字段的数据类型和配置,替换掉字典列的值;非字典列会被替换成byte数组 3、按照Sort列进行排序 4、把数据用Carbondata

1.7K60

CarbonData想到了存储和计算的关系

这个时候CarbonData 似乎更符合我的要求了: 轻量化,只是一个存储结构,而不是一个独立的拥有计算和存储,并且能够对外提供服务的引擎。...当然,CarbonData似乎也提供了Thrift接口供外部调用。...类似Parquet/CarbonData则不存在这类问题,他只要优化好存储结构就行了,然后暴露类似HDFS的基础API,真实的写入和查询都可以交给通用的计算引擎来完成。...Spark 计算引擎其实是一个标准的master-slave模式,当然专业的术语是 driver-executor,和CarbonData的交互模式是每个Executor 都会加载CarbonData的元数据...CarbonData的思路,我觉得是符合趋势的,所以非常看好。当然,也希望未来有更多类似的项目诞生。

1K30

SparkFlinkCarbonData技术实践最佳案例解析

CarbonData 是一种高性能大数据存储方案,已在 20+ 企业生产环境上部署应用,其中最大的单一集群数据规模达到几万亿。...CarbonData 原理、应用和新规划 华为大数据架构师蔡强在以 CarbonData 为主题的演讲中主要介绍了企业对数据应用的挑战、存储产品的选型决策,并深入讲解了 CarbonData 的原理及应用...蔡强在演讲中对 CarbonData 的设计思路做了详细讲解。 在数据统一存储上:通过数据共享减少孤岛和冗余,支持多种业务场景以产生更大价值。...最后,蔡强也分析了 CarbonData 的具体使用和未来计划。 在使用上,CarbonData 提供了非常丰富的功能特性,用户可权衡入库时间、索引粒度和查询性能,增量入库等方面来灵活设置。...CarbonData 从 2016 年进入孵化器到 2017 年毕业,一共发布了 10 多个稳定的版本,今年 9 月份将会迎来 1.5.0 版的发布。

1.1K20
领券