暂无搜索历史
本次Data+AI圆桌会议汇聚了行业对数据智能的前沿探索,覆盖数据使用主体变迁、技术架构革新、开源与商业化平衡、未来趋势预判四大核心议题,既暴露了当前数据利用率...
腾讯 | 高级工程师 (已认证)
列基数是指数据表中某一列的 “不同值的数量”,它直接决定了这一列数据的 “区分度”,分为两类:
分区物化:您需要在物化视图的分区键中指定特定基表(通常是事实表)的分区键来实现物化视图的分区关联(PARTITION BY fact_tbl.col)。一个物化...
Arena 别名参考LevelDB设计, BufferPool 我理解主要是进行按照不同Page大小,缓存不同PerSizeList连续空间..
-config.xml 新增src zookeeper 'src_cluster'
1KB = 1024 Bytes = 2^10 Bytes = (1L << 10) Bytes
首先parquet 分为数据区域和索引区域, 如图,至于 索引区域为何放到文件末尾大家可以思考下
声明:本文基本为多篇文章组合而成,仅供参考!(主要参考https://developer.aliyun.com/article/789901?spm=a2c6h...
导读 在当今数字化商业浪潮中,数据无疑是企业的核心资产,而流量数据更是电商巨头京东业务运转的关键驱动力。它广泛应用于搜索推荐、广告投放等多个核心业务场景,直接影...
传统大数据团队如何做多维数据分析1-分类(https://cloud.tencent.com/developer/article/2555897)
当前大数据 OLAP 体系采用存算一体架构(计算与存储混合部署),随着业务数据量激增、核心场景查询并发提升(核心业务峰值 QPS 达 x+),架构瓶颈逐渐凸显,...
将default warehouse中的值动态化 即实现该方法getWarehouseInfo
个人走了一趟便便,发现centos 编译下最大的问题是。byconity依赖 llvm下clang,但clang 又不完全满足byconity 依赖包,一部分依...
一个metadata 存放多个snapshot, snapshot:mainfest_list = 1:1
我理解就是各类数据爆发的公司当前数据平台架构遇到了各类各样的问题,寻求一个适配公司、平台的数据架构,一站式解决,但是大家对湖、仓本质的理解可能都不太一样,那又怎...
RuntimeFIlter: 多用于两表Join 时, 通过减少大表返回行的,减少网络传输、减少数据量、 进而加速Join过程的一种方法
查询过程主要有 class InterpreterSelectQueryUseOptimizer : public IInterpreter 初始化和执行
RDD分为两种: Transformation 转换算子, Action 动作算子
现在个人只是储备来看,向量化跟以上是都可以兼容的,所有引擎是可以简单都理解为是Valcano Model 的变种吧
暂未填写技能专长