前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >小米doris

小米doris

作者头像
用户1413827
发布2023-11-30 10:05:52
2410
发布2023-11-30 10:05:52
举报
文章被收录于专栏:站长运维

小米doris

apache doris在小米演进架构中的应用,原来的方式是来自各平台的数据,都要有一个数据汇总的平台,但是由于数据量巨大,如果还用传统的mysql来做数据筛选,mysql的查询语句会变得越来越复杂,而且每天产生的都是pb级别的数据量,这种级别的数据,不搭建hadoop大数据平台的话,根本没有这样海量数据的处理能力。但是要维护一个大数据处理平台,运维成本是相当高的。而且每进行一次数据的汇总运算的话,可能服务集群的所有资源都要让度出来供该次运算得出结果,对整体集群的上其他一些服务的影响也特别大,所以引入了apache doris平台。支持了本地数据的上传,支持insert into select from的查询语句,也支持routing keys直接订阅kafka的broker(这好像是rabbitmq中的概念呀),这些数据导入之后,就可以在apache doris进行汇总了。现在apache doris已经在天星数科、新零食、用户画像、BI广告投放等业务上广泛被使用,大大提高的服务的运算性能。服务的演进过程也是宽查询,就是建立相应的表

大数据写到hive中,logStack中的数据,Mongodb,mysql中的数据。架构中有缓存,apache doris数据写入缓存,从缓存中读,缓存中读不到的从doris中读,那么,doris优势体现在性能更高吗?

增量数据100亿/天,导入压力大,可以从接手数据接入doris,然后做数据埋点做切入点?

它提供了留存、漏斗分析等函数,极大程度简化了开发的成本。数据导入过程中可以使用Merge On Write Unique key导入模型,可以搞100亿/天增量数据压力 。消息队列talos,在Flink中清洗建模后,被下游的Doris和Hive消费。全量数据会存储在Hive中,进行批量ETL或历史数据召回的查询。实时增量被存储在Doris中,用来做热数据的查询操作。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-04-18 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 小米doris
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档