首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Iceberg 实践 | B 站通过数据组织加速大规模数据分析

Data Clustering是指数据按照读取时的IO粒度紧密聚集,而Data Skipping则根据过滤条件在读取时跳过不相干的数据,Data Clustering的方式以及查询中的过滤条件共同决定了...Data Skipping的效果,从而影响查询的响应时间,对于TB甚至PB级别的数据,如何通过Data Clustering以及Data Skipping技术高效的跳过所有逻辑上不需要的数据,是能否实现交互式分析的体验的关键因素之一...本文主要基于Spark进行了一些扩展,支持对数据进行一些定制化的Data Clustering,以及使用Spark SQL测试Data Skipping的效果。...,需要引入一种新的排序机制,使得多个常用的过滤字段均能够获得比较好的Data Skipping效果。...比例稍有下降,但是在c_city以及p_brand字段上的Data Skipping比例大大增加,在实际的测试场景中,可能有10倍甚至100倍以上的性能提升。

2.1K30
领券