首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【实践案例分享】Apache Doris在美团外卖数仓应用实践

例如,如果使用最新商家类型回溯商家近三个月表现,需要重新计算三个月Cube,需花费几个小时,来计算近TB历史数据。...预计算大量历史数据实际使用率低下,实际工作对历史回溯80%集中在近1个月左右,但为了应对所有需求场景,业务要求计算近半年以上历史。 不支持明细数据查询。...MPP引擎核心是通过将数据分散,实现CPUIO内存资源分布,来提升并行计算能力。在当前数据存储磁盘为主情况下,数据Scan需要较大磁盘IO,以及并行导致CPU,仍然是资源短板。...如上图所示,Doris默认在每个节点上为每个算子只会生成1个执行实例。这样的话,如果数据量很大,每个执行实例算子就需要处理大量数据,而且无法充分利用集群CPUIO内存等资源。...可以看到,当使用Bitmap之后,之前PV计算过程会大幅简化,现场查询时 IOCPU内存,网络资源也会显著减少,并且不再会随着数据规模而线性增加。

2K20

数据库MySQL CPU飙升排查流程

如果这两个指标的变化与CPU变化趋势能对应上,说明客户业务有突增。...例如:客户反馈数据库一点CPU出现飙升,通过查询监控每秒执行操作数以及每秒执行事务数发现在对应时间点有突增,由此分析CPU上升是由于客户本身业务导致。...image.png 解决方案 实例 QPS高,需要结合慢查询进行分析,看下SQL是否有优化空间,如果SQL较为简单,执行效率也比较高,此时,SQL执行优化效果也不会很好,需要从应用架构以及实力规格等因素来解决问题...慢查询 查看监控运行线程,运行线程数如果运行线程数变化趋势CPU变化趋势能够对应上,可以说明数据库吞吐已经出现问题,可能存在有慢查询(运行线程数一般大于20就有问题),可以通过监控可以看到慢查询数量...CPU过高,可以做如下方案进行优化: 1.打开慢查询日志,查询是否是某个SQL语句占用过多资源,如果是的话,可以SQL语句进行优化,比如优化 insert 语句、优化 group by 语句、优化 order

10.3K2040
您找到你想要的搜索结果了吗?
是的
没有找到

Zabbix到Prometheus,同程艺龙数据库监控系统实践

引用来源:https://www.bookstack.cn/read/prometheus-book/AUTHOR.md 1)长期趋势分析:通过对监控样本数据持续收集和统计,对监控指标进行长期趋势分析...3)故障分析与定位:当问题发生后,需要对问题进行调查和处理。通过对不同监控监控以及历史数据分析,能够找到并解决根源问题。...,会判断这条告警信息是否超过DBA针对集群或者实例(实例优先级高于集群)设置阈值范围,如果超过就触发发送动作。...以此来降低夜间告警数量,但是这样一来可能会错过一些告警,导致问题不能及时暴露,所以就做了集群评分功能来分析集群健康状况。并且针对一个月评分做了趋势展示,方便DBA能够快速判断该集群是否需要优化。...▲ 集群评分 点击详情,可以进入该集群详情页面。可以查看CPU内存、磁盘使用情况(这里磁盘空间达到了262%,意思是超过配额了)。

1.9K10

新手性能测试打开方式

资源指标 一般情况下,系统资源指标也不能超过瓶颈值,例如CPU资源利用率<=75%,内存无SWAP, 磁盘和网络I/O不能自身处理能力。...TPS,结合基准测试结果可以分析性能增长趋势(响应时间/系统资源等增长趋势) 3、 混合场景测试 使用相关模型进行测试场景,主要验证整体性能是否满足上线要求,或者给出基于模型最大TPS 4、 稳定性测试...一般在系统最大TPS 80% 压力下 执行 12或24小时,主要验证系统在执行大量业务交易(一般模拟一个月业务量)后性能表现 瓶颈分析 瓶颈定位目的是对系统存在瓶颈点进行分析,为调优做准备,...实战 业务场景 日常任务管理网站本地 IDC 机房迁移上时,需要提前评估系统性能瓶颈。 业务指标 满足对集团内1000用户并发访问。 300用户数并发对日程进行创建、修改、删除等操作。...第二次压测,直接全局调速40%, 当压力测试进行到80%时,监控上见到ECS、RDS内存消耗超过90%,RT明显增高到4000+ms,并初现超时情况。

1.1K10

告警数量减少95%:去哪儿数据库巡检报警系统做了哪些优化?

1.2 优化步骤 1.2.1 优化步骤1: 指标健全和分类 我们首先对指标进行了梳理,明确了需要健全指标。在主机层面,主要关注四个方面:CPU内存、网络和磁盘。...具体来说,监控CPU使用率、内存Free空间、网络流入流出带宽、磁盘IO以及剩余空间等。 对于MySQL,我们不仅关注实例层面性能指标,还会关注集群层面的性能指标。...这里需要说明是,如果集群节点不在线,业务是无法连接到集群。 此外,对于Redis,我们同样关注单实例和集群指标,如内存使用、连接数、CPU使用率和网络流量。...还会检查集群分片是否存在热点Key,内存分布是否均匀,以及是否满足跨机房需求。 这里仅列举了一些场景重要指标,并不全面,仅供大家参考。...通过对这些指标分析可以判断DML语句更新量,哪些SQL是最消耗资源,哪些SQL对磁盘I/O和CPU效率要求较高,以及SQL在执行过程持有锁时间。

12910

关于性能测试

之前我们做过一个项目,性能测试需求基本上就是历史数据得到。...我们历史数据首先了解到了系统需要满足并发量,针对每个service去做相应压力测试,并且定义对应性能测试指标。如下图: ? ?...其实这与数据库本身工作原理有关系,数据库io操作基本单位为页,当数据库执行一条语句,比如一条查询语句,它会先从物理磁盘把相应页加载到内存,然后再进行操作。...因为数据库本身就在不停读写,所以数据库内存当中会缓存各种各样数据,为了更快读写,数据库会有算法去维护这些内存数据,保证尽可能使得数据都是内存获得,而不是物理内存得到(内存访问速度是纳秒级...如果建立了适当索引,可能只需要加载几页内存可以了。 当我们用一些工具比如sql profile跟踪到一些长查询时候,我们就需要去看看索引是否建立恰当。这在数据库优化也是很重要一个方面。

1.1K31

Prometheus监控学习笔记之全面学习Prometheus

通过建立完善监控体系,从而达到以下目的: 长期趋势分析:通过对监控样本数据持续收集和统计,对监控指标进行长期趋势分析。...故障分析与定位:当问题发生后,需要对问题进行调查和处理。通过对不同监控指标以及历史数据分析,能够找到并解决根源问题。...在上述需求,我们可以提取出以下对于一个完善监控解决方案几个关键词:数据分析趋势预测、告警、故障定位、可视化。...Promthues周期性Node Exporter实例获取监控样本,并保存到Promtheus基于本地磁盘实现时间序列数据库。 ?...Pod实例,并从该Pod实例获取其内部运行状态监控指标

2.8K41

计费监控优化系列:TDSQL监控优化

为此我们两个阶段分别着手对TDSQL监控进行整合优化,阶段一:对现有的监控逻辑进行梳理,整理解决现有痛点。阶段二:引入新监控算法,如趋势性算法、突变算法、推理算法等。...分析&告警 分析告警也为1min 周期进行分析,拉取监控数据,根据响应监控策略进行分析,产生告警并发送。在现阶段分析告警机制相对简单,主要依赖采集和存储稳定性,避免误告。...1、提高并发度,将并发能力由之前实例级(实例数据拉取会有多次io串行拉取),分解到io级别,提高并行能力; 2、多个数据源独立线程和任务。...采集指标并非所有均需要监控,降需要监控数据做历史存储,静态指标,存储当前值即可; 4、对历史数据进行分区,表压缩; 5、历史数据按天分表方便进行滚动。 优化效果如下,节省空间近95%。...,趋势性告警是否有效等,仍是下个阶段需要进行攻关重点。

1.4K30

干货 | 100亿+数据量,每天50W+查询,携程酒店数据智能平台实践

; 3)历史数据更新量大,普通SQL数据库数据导入都会存在io瓶颈; 4)搜索条件多,汇总维度不固定,导致很多数据无法更进一步汇总; 5)同时在线用户量很高,特别是针对业绩数据,实时订单数据和奖金数据等场景是业务非常关心...: 1)流程监控机制:当前整个平台100多亿数据量,每天需要更新几十亿历史数据,2000多个数据更新流程,我们需要保证数据每天能按时更新到ClickHouse,所以我们做了很多监控。...当服务器CPU使用率突然增加20%或者服务器CPU持续消耗超过20%,我们都会抓出当前正在执行语句同时发出预警邮件,类似于dump做事后分析。...通过下图监控统计截图可以看到,平台接口1s内响应时间占比在不断提高,超过1s请求经过优化后占比也是不断降低。...2)如何让用户在茫茫数据海洋中高效找到关键数据,我们集成了第三方插件做出一些新颖图像,宏观分析数据趋势以及关键类型汇总占比,让用户通过图形展示能更加直观快速得到数据信息。

4.1K31

腾讯数据库(MySQL)监控最佳指南

01 监控指标及其分类 1.1 监控实例分析数据库 MySQL 实例架构进行分析,其主要分为三个部分:网络连接层、服务层、存储引擎层。 ?...CPU 利用率 > 80% 系统执行应用来进行提交查询(包括数据修改操作)时需要大量逻辑读(逻辑 IO,执行查询所需访问数据行数),所以系统需要消耗大量 CPU 资源维护从存储系统读取到内存数据一致性...为避免业务因 CPU 资源不足而受影响,设置 CPU 使用率 > 80% 告警,当接收到告警后,建议应用架构、实例规格等方面来解决,例如: 升级实例规格,增加 CPU 资源; 增加只读实例,将对数据一致性不敏感查询转移到只读实例上...内存利用率 > 80% MySQL 内存是重要性能参数,常出现由于低效 SQL 请求以及待优化数据库导致内存利用率过高甚至超过 100% 情况。...监控 CPU 利用率、磁盘利用率、内存利用率、内网入流量、内网出流量等资源,配合告警,当监控值超过某一值时,要关注是否需要扩容; 监控 QPS、TPS、当前打开连接数量,提前感知数据库状态。

3.6K31

数仓:Doris在美团应用实践

例如,如果使用最新商家类型回溯商家近三个月表现,需要重新计算三个月Cube,需花费几个小时,来计算近TB历史数据。...预计算大量历史数据实际使用率低下,实际工作对历史回溯80%集中在近1个月左右,但为了应对所有需求场景,业务要求计算近半年以上历史。 不支持明细数据查询。...例如:日数据量ROLAP现场计算,周、月趋势计算,以及明细数据浏览都可以较好应对。...MPP引擎核心是通过将数据分散,实现CPUIO内存资源分布,来提升并行计算能力。在当前数据存储磁盘为主情况下,数据Scan需要较大磁盘IO,以及并行导致CPU,仍然是资源短板。...因此,高频大规模汇总统计,并发能力将面临较大挑战,这取决于集群硬件方面的并行计算能力。传统去重算法需要大量计算资源,实时大规模去重指标CPU内存都是一个巨大挑战。

20810

Oracle自动性能统计

采样(sampling)   Oracle对活动会话过程中出现相关等待进行采样,并将这些数据收集到内存可以用V$视图进行访问,也可以将其生成报告,用于快速或者实时定位性能问题。...CPU统计信息   CPU利用率是调优过程中最重要操作系统统计。应获取整个系统和多处理器系统单个CPU利用率。每个CPU利用率可以检测单线程和可扩展性问题。...大多数操作系统在用户空间或内核空间显示CPU时间开销,这些额外统计数据可以更好地分析CPU实际执行情况。   ...由于DB时间是由所有非空闲用户会话时间组合来计算,所以DB时间可能超过实例开始后所经过实际时间。例如,已经运行了30分钟实例可能有四个活动用户会话,其累积DB Time大约为120分钟。...这些采样信息被保存在视图wrh$_active_session_history。而这个采样频率(1小时)和保留时间(8天)可以根据实际情况进行调整。

1.3K00

问诊白求恩之性能分析:把握趋势比你更了解你

这些维度包括: AWR/SGA分析 整体负载分析 等待事件 Top SQL AWR/SGA分析 在采样数据,Bethune会DB time为判断指标进行趋势展现,让你更了解数据库日常工作状态。...通过将高负载处DB time进行分解,更可以发现可能存在性能问题: ? 上图为例,在43211DB time时间内,CPU时间只占1/4左右。...将鼠标放到对应时间点,会方式呈现: ? 我们看到,在该实例,log file Sync等待事件占了总共DB time40%以上。...log file Sync等待事件产生原因与以下几种: 1.频繁提交或者rollback,检查应用是否有过多短小事务,如果有,可以使用批处理来缓解。 2.操作系统IO缓慢。...这种情况,可以调小参数_LOG_IO_SIZE参数,其默认值是LOG_BUFFER1/3或1MB,取两者之中较小值。 4.CPU负载高。

1.2K50

使用Python进行计算:AWS、Azure、和Google Cloud比较

通过监控和分析平台上资源使用情况,您可以识别不必要资源并及时采取措施以降低成本。资源利用率分析:使用Python编写脚本来监控和分析平台上资源利用率,例如CPU内存、存储等。...通过收集和分析这些数据,您可以识别出资源使用率较低实例或服务,并决定是否需要停止或调整它们。成本预测和优化:利用Python SDK中提供成本管理功能,您可以编写脚本来预测和优化您服务成本。...例如,您可以根据历史数据和当前趋势预测未来成本,并采取相应措施来降低成本,例如使用预留实例、选择更便宜实例类型等。...这样可以保护数据免受未经授权访问,并确保数据在传输和存储过程机密性和完整性。合规性监控和审计:使用Python编写脚本来监控平台安全性和合规性,并生成审计报告满足法规和标准要求。...持续监控和评估:定期运行安全性检查和漏洞扫描脚本,并将结果与历史数据进行比较,识别潜在安全风险和异常情况。通过持续监控和评估,您可以及时发现并解决安全问题,保护平台和应用程序免受威胁。

12020

构建企业级监控平台系列(一):监控系统概述及发展趋势

今天开始,我们将踏上另一个系列学习之路:企业级监控平台。 概述 企业IT架构逐步传统物理服务器,迁移到虚拟机为主导 IaaS ,抑或当前流行容器PaaS 平台。...(1)网络性能监控(Network Performance Monitor,NPM) 主要涉及网络监测、网络实时流量监控(网络延迟、访问量、成功率等)和历史数据统计、汇总和历史数据分析等功能。...例如,在某个时间段内程序输出日志,若异常数超过阈值,则发出告警。 如下图所示,展现了目前业内比较流行日志监控黄金组合,当然,每个组件都有一些替代方案。 接下来对上图组件进行简单介绍。...历史数据查询则要求数据时间跨度长,并且可以生成对应监控报表。 另外,可以通过一些 Web 工具,把后端分析数据以可视化方式展现。...例如,性能告警规则一般是设定某个阈值、触发次数和告警行为,对于 CPU 利用率、内存使用量、 QPS 等性能指标,如果在某个时间段内多次触发该阈值,则将其视为满足告警条件;如果是站点告警,则一般设置请求返回码或者正则匹配消息体内容

1.1K41

游戏业务安全实时计算集群:原生资源优化实践

应用资源使用设置不合理 原生资源管理方式要求应用在部署之前,提前设置好 CPU内存、磁盘最小和最大资源使用量,并且之后不能改动(除非重建所有实例),这要求应用在正式上线之前预估其资源需求。...相同类型 Pod,各项资源使用有差异 在实际运行过程,我们发现即使是相同 Pod,其 CPU内存、磁盘、网络等监控指标也会有很大差异,极端情况下会相差60%。...资源维度有限 原生调度策略只会基于 CPU内存、磁盘这三个维度判断节点资源是否充足。然而实际情况下,磁盘 IO、网络 IO、连接数等维度同样是决定业务是否正常运行关键。...预测模型 预测模型旨在基于 Pod 历史多个周期监控数据,预测下个周期资源使用数据(一般为基于历史一个月预测未来一周)。主要有以下几种预测方式: 方法 优点 缺点 直接使用历史数据 1....并且为了保证服务质量,计算部署方案时节点各维度资源最高利用率设置为不超过80%,因此有进一步压缩可能。同时各资源维度也实现了较好均衡性,下图 CPU内存为例,展示部署方案中资源均衡性。

1.3K20

干货 | 携程MySQL迁移OceanBase最佳实践

5.2 自动化分析 自动化分析流程图如下: 5.3 实时检测性能指标 通常判断性能异常指标包括CPU占用率、磁盘IO占用率、Threads Running、QPS、网卡流量等。...基于运维经验,可以针对每个指标设定相应阈值,当突破阈值时,则认为当前实例存在性能问题。比如CPU占用率高于65%或磁盘IO占用率高于80%则代表服务器出现异常。...最后,基于前面两种类型数据进行综合性分析分析要点主要有: SQL层面: SQL性能消耗占比、有无正在执行SQL是否缺失索引、是否存在远程执行或分布式执行等。...5.5 运用案例 下面基于该工具自动生成一例分析报告来介绍该工具实际运用: 报告故障指标板块显示4:30后服务器CPU上升; 报告OceanBase相关表板块显示CPU上升趋势和下面这张表访问趋势一致...; 报告OceanBase相关SQL板块显示这张表访问趋势和下面的SQL语句访问趋势一致; 报告分析结果板块定位到CPU上升和tablex表访问上升有关,而这张表访问上升又和这1SQL语句访问耗时增长有关

90740

【官方详解】Zabbix, 时间序列数据和TimescaleDB

Zabbix 在内存维护几个高度专业化缓存区域, 加快数据读取和写入操作。...服务器内存时还好,但是当数据需要写入数据库 (或数据库读取) 时,无论多么好缓存和算法,如果数据库性能严重低于收集指标的速度,这些算法都是没有任何帮助。...你可能会使用Zabbix进行监控,并且很快获取异常告警通知。但是,如果数据库出现问题,你可能会丢失所有基础架构历史数据 对于某些用户来说,拥有专用时间序列存储优势可能会超过新增系统带来不便。...例如, 如果你发现history_uint 块为13MB, 其他历史数据块 (例如, 20MB) 和趋势表 10MB, 则总内存需求为 13 + 4 x 20 + 2 x 10 = 113MB。...此实用程序分析postgresql.conf, 检查你系统配置 (如内存CPU), 然后提出有关内存设置、并行处理参数WAL (write-ahead log) 优化建议。

1.8K20

今日指数项目之需求调研【三】

所以需要考虑整个大数据平台吞吐量(网络、磁盘IO)、响应速率、计算能力、高并发性、高可用、维护性方便等,满足多业务场景下,不同应用需求建设任务,比如多维分析、实时计算、即席查询和数据统计分析等应用功能...应用查询时间对于数据库简单数据读取将不超过1~2秒,三个月统计计算查询时间将不超过15秒,复杂查询时间将不超过1分钟; 复杂批处理任务,ETL处理时间将不超过2个小时; 实时流处理指标:...):存储5日内秒级行情,数据量为2.88亿条 分时行情(Druid):存储半年内分时行情数据,数据量为8.64亿条; 历史数据(Hive数仓):沪深市场2万只证券,存储时间按1年统计: 秒级行情...(3)FusionInsight 华为-FusionInsight,基于Apache进行功能增强企业级大数据存储、查询和分析统一平台。...平台规划 1)机器配置 假设公司采购机器: 单机: 内存: 128G CPU: 48C 磁盘: 10 * 1.2T 消息队列日吞吐量计算需占用磁盘空间: 1.消息队列日数据吞吐量:2000

30420

kubernetes指南--弹性伸缩

VPA 也支持 prometheus 采集历史数据,不过需要额外配置。...与 VPA 仅支持 metrics server 采集 CPU内存数据不同是,HPA 支持多种数据维度和数据采集方式: heapster 采集 CPU内存数据(自 kubernetes...node autoscaling 垂直伸缩 与 kubernetes 本身关系不大,其功能主要取决于厂商。例如,厂商是否支持主机升降配,以及升降配过程是否 需要重启主机等。... AliCloud 为例,默认单个用户按量付费实例配额是30台,单个VPC路由表限额是50条;且每个可用区同一类型实例 库存容量波动很大,如果短时间内大量购买同一区同一配置实例,很容易出现库存不足导致扩容失败...关于 state metrics 和 metrics server 差异: metrics server 仅采集 kubernetes CPU内存等核心指标,它周期性地调用所有节点 kubelet

3.2K40
领券