前段时间的主要工作是开发统计系统, 统计公司产品的安装量和回访量,统计数据则由客户端调用C接口写入mysql数据库,即我们只需要分析客户端写入的原始数据即可。下面是对这个项目的一个总结:
马尔可夫链是一个能够用数学方法就能解释自然变化的一般规律模型,它是由著名的俄国数学家马尔科夫在1910年左右提出的。马尔科夫过程已经是现在概率论中随机过程理论的一个重要方面。经过了一百年左右的发展,马尔可夫过程已经渗透到各个领域并发挥了重要的作用,如在我们熟知的经济、通信领域,除此之外在地质灾害、医疗卫生事业、生物学等自然科学领域也发挥了非常重要的作用。
事实上,在推荐系统的学术研究中,我们过于关注模型的创新,而忽视了落地可行性以及实用性。这与模型的新颖度和复杂度不同,是另外一个层面的值得我们考虑的问题。因此,本文中所推荐的论文,是针对推荐系统的定期重训练需求设计的模型。本人认为这是一个不错的话题,因此推荐给大家。但是,本文并非对论文的翻译,而是将文中的想法和思路简明扼要地传递给大家,如想了解论文的全貌还请精读原始论文。
作者 | Micah Lerner 译者 | 明知山 策划 | 蔡芳芳 本文对论文“Druid:一个实时分析数据存储系统”进行了概括总结,对 Druid 的架构、存储格式、查询 API 等进行了简要介绍。如需深入了解更多的细节,请查看论文原文。 这篇论文研究的是什么 Druid 是一个开源数据库,可以实现低延迟的近实时和历史数据分析。Druid 最初是由广告技术公司 MetaMarkets 开发的,后来被 Snap 收购,现在已被 Netflix、Confluent 和 Lyft 等公司应
在业务需求中,经常需要我们在系统中能够记录历史信息,能够查看到历史变动情况,这时我们可以通过增加开始结束时间字段来记录数据的历史版本。对数据的历史记录主要分为:关系、属性历史,实体历史和变更历史。
背景: 业务发展需要,需要复用历史的表,并且通过表里面原来一个未使用的字段来区分不同的业务。 于是想到通过default来修改列的默认值: alter table A modify column biz default 'old' comment '业务标识 old-老业务, new-新业务' 现象: 上线几天之后,业务反馈旧业务的相关数据查询不到了。找后台运维查生产数据库,发现历史数据的biz字段还是null 原因: 自己在本地mysql数据库试了下,好像的确是default没法修改历史数据为null
系统版本表是SQL:2011标准中首次引入的功能。系统版本表存储所有更改的历史数据,而不仅仅是当前时刻有效的数据。举个例子,同一行数据一秒内被更改了10次,那么就会保存10份不同时间的版本数据。就像《源代码》电影里的平行世界理论一样,你可以退回任意时间里。从而有效保障你的数据是安全的,DBA手抖或程序BUG引起的数据丢失,在MariaDB10.3里已成为过去。
SELECT TABLE_NAME AS "Table", round(((data_length + index_length) / 1024 / 1024), 2) AS Size_in_MB FROM information_schema.TABLES WHERE table_schema = 'zabbix' ORDER BY Size_in_MB DESC LIMIT 10;
Zabbix 数据库在没有使用分区分表功能,默认使用Housekeeping(管家功能)进行删除历史数据和趋势历史记录,如果zabbix数据库使用了分区分表功能需要把Housekeeping(管理功能)关闭。Housekeeping功能监控数据量少可以使用,但监控数据量多每次执行删除旧数据会降低MySQL数据库性能,并且还会产生很多空间碎片。经常会出现警报" Zabbix housekeeper processes more than 75% busy"的告警。(zabbix_server.conf配置文件两个参数进行历史记录数据删除:间隔多久删除一次,默认单位小时HousekeepingFrequency=1,一次删除多少数据,默认单位行MaxHousekeeperDelete=5000)。
前言 京东物流极速的购物体验背后隐藏着怎样的秘诀?仓储和配送时效是其中最为关键的一环。京东物流超强仓配体系,特别是在电商行业中独有的仓储系统,在其中起到了决定性的作用。 当前京东的库房已经遍布全国,京东仓储管理系统(简称WMS系统)是最核心的生产系统,涵盖了从入库,复核,打包,出库、库存和报表等等环节。 而作为系统最后端的数据库,不仅仅承担着存储数据的任务,还是系统可用性的最后一道防线,如何保证仓储系统数据库的高性能和高可用,直接决定了库房生产是否能顺畅进行。 在本篇我们将会详细介绍京东物流仓储系统的数据
使用起来和不分区是一样的,看起来只有一个数据库,其实有多个分区文件,比如我们要插入一条数据,不需要指定分区,MySQL会自动帮我们处理
Zabbix支持多种数据库引擎,你可以在MySQL,MySQL的分支,MariaDB,Oracle,PostgreSQL ,IBM DB2之中选择。以上是五大核心数据库引擎。但是此外,你也可以在历史数据存储方面利用Elasticsearch的功能。还有一个新的Timescale数据库,也是PostgreSQL类型,内置有分区的功能。
近一个月处理历史数据问题时,居然连续遇到了2个MySQL BUG,分享给大家一下,也欢迎指正是否有问题。
当旧业务需要改造为基于 dble 的分布式业务时,会面临已有历史数据的拆分和导入问题,dble 支持的导入导出方式有多种,具体详见文档3.11.1,本次我们介绍的 split 功能可以理解为导入过程加速器,那它是怎么加速的呢?
LCS 是一个基于 Python Django 框架的项目,业务核心是物流订单的履约过程,包括连接上游和第三方物流服务的创建订单、轨迹与运费更新。在部署上,LCS 依据业务所在的市场不同,应用层分市场部署,并使用各自市场对应的数据库。在项目起步初期,这些不同市场的数据库共用同一套物理集群,共享内存和磁盘空间,在资源上看,是足以应付初期流量的。
岳毅,携程高级研发经理,负责酒店数据智能平台研发,大数据技术创新工作。喜欢探索研究大数据的开源技术框架。
纪成,携程数据开发总监,负责金融数据基础组件及平台开发、数仓建设与治理相关的工作。对大数据领域开源技术框架有浓厚兴趣。
zabbix运行一段时间之后,会留下大量的历史 数据,会发现zabbix的数据库一直在增大。运行3个月后笔者的数据库达到了5.7G,可能造成系统性能下降,查看历史数据时查询速度缓慢。 zabbix里面最大的表就是历史记录的表了,网上很多人都是写全部清空这些表的数据,其实我们可以按时间来删除里面的历史记录。
在MariaDB中,有如下针对MariaDB与MySQL两种数据库比较的官方说法:
今天我们的zabbix-server机器根空间不够了,我一步步排查结果发现是/var/lib/mysql/下的libdata1文件过大,已经达到了41G。我立即想到了zabbix的数据库原因,随后百度、谷歌才知道zabbix的数据库他的表模式是共享表空间模式,随着数据增长,ibdata1 越来越大,性能方面会有影响,而且innodb把数据和索引都放在ibdata1下。
数据量的增长其实一直是随着互联网的发展呈现爆发式增长的,因为各种各样的数据都在不断的被原样或者是经过少量的更改和增补后拷贝到互联网的各个角落。为了适应互联网数据的海量增长,在后端和架构意义上而言,数据库的发展也大致经历了「单库单表 -> 主从读写分离 -> 分表分库 -> NoSQL -> NewSQL」这样的过程。
zabbix监控中有时会根据需要对zabbix服务器进行迁移,zabbix迁移是非常简单的,因为zabbix的前端所有的操作都存在zabbix数据库里。所以zabbix迁移只需对zabbix库中相应的表进行导出导进即可。
“增删改查”都是查找问题,因为你都得先找到数据才能对数据做操作。那存储系统性能问题,其实就是查找快慢问题。
Lambda架构设计目的在于提供一个满足大数据系统关键特性的架构。整合离线计算和实时计算,融合不可变性、读写分离和复杂性隔离等原则。
该文介绍了MySQL中表分区功能的使用,包括RANGE分区、LIST分区、HASH分区、KEY分区以及分区表的操作和优化。针对不同的分区类型,介绍了不同的应用场景和优缺点。同时,还提供了一些分区表SQL操作优化的建议。
Zabbix 5.2.6 数据库共有170张表,Zabbix 数据表的名称都是复数。资源之间的关联关系是通过外键来完成的。比如host和item的关联关系,就是在items表中使用hostid与hosts表中的资源进行关联。
在工业自动化领域,我们经常使用第三方关系数据库作为历史数据存储的容器,以备后期数据维护,历史查询,历史趋势的获取,我们常用的第三方关系数据库有:ORCALE数据库,SQL Server数据库,MYSQL数据库。
昨天处理了一个业务同学的数据需求,简单来说就是对一张大表做一下数据清理,数据量在8千万左右,需要保留近一个月的数据,大概是400万左右。
最近做一个oracle项目迁移工作,跟着spark架构师学着做,进行一些方法的总结。
升级期间,不会影响到现有的系统,系统将保持正常的运行,升级完成后,将进行一段时间的可用性测试,待系统稳定后将替换生产上的监控。
我们经常遇到一张表里面保存了上亿甚至过十亿的记录,这些表里面保存了大量的历史记录。 对于这些历史数据的清理是一个非常头疼事情,由于所有的数据都一个普通的表里。所以只能是启用一个或多个带where条件的delete语句去删除(一般where条件是时间)。 这对数据库的造成了很大压力。即使我们把这些删除了,但底层的数据文件并没有变小。面对这类问题,最有效的方法就是在使用分区表。最常见的分区方法就是按照时间进行分区。
Zabbix监控运行一段时间以后,会留下大量的历史监控数据,Zabbix数据库一直在增大;可能会造成系统性能下降,查看历史数据室查询速度缓慢。
Zabbix运维工程师,熟悉Zabbix开源监控系统的架构。乐于分享Zabbix运维经验,个人公众号“运维开发故事”。
大家好,又见面了,我是你们的朋友全栈君。 前言:我计划把我的blog从51cto移到javaeye,陆陆续续地把我对工作流的理解贴上来,和大家交流。
在日常使用MySQL的过程中,会遇到 CPU 使用率过高甚至达到 100% 的情况。CPU飙升会导致数据库无法连接,事务无法提交等一系列问题。本文基于日常问题处理介绍造成CPU飙升的原因以及解决方法。
近期也总结了几篇关于巡检的内容,很多同学也很期待,说业务巡检是一个新概念,想做成什么样子,或者说怎么样做起来更好一些。
Linux监控平台介绍 监控存在的原因 站点出了问题,没有人知道,等用户发现了,才提醒供应商;对公司影响很大 常见开源监控软件 cacti、nagios、zabbix、smokeping、open-falcon等等,其中nagios、zabbix流行度非常高 cacti、smokeping偏向于基础监控,成图非常漂亮,适合监控网络设备 cacti监控网络的设备 cacti、nagios、zabbix服务端监控中心,需要php环境支持(用Apache的php,用nginx的php都可以),其中zabbi
这几年一直是MONGODB使用者,从3.2 到4.0 ,在使用中也一直充分的感受到MONGODB 这几年的飞速的发展以及功能的扩展,偶然在极客时间里面看到有MONGODB 的 终极玩家 唐建法 老师的关于MONGODB的课,其中有一段内容以前是不大敢想的, 就是ORACLE TO MONGODB。
采用技术为:spring,springMVC,Mybatis,Activiti5,(Activiti可视化设计器基于IE,火狐,谷歌,360等浏览器),Solr4.10,Mysql,Redis,Ehcache,服务器监控模块,tk压缩,Extjs6.2 ,BootStrap,Junit单元测试,Logback,同时融入了Hessian,数据库读写分离,MQ消息中间件等技术。
这个问题我想只要是在做数据开发的,有一定数据实时性要求、需要做数据的增量同步的公司都会遇到。
TiDB 是 PingCAP 公司设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库,结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL,支持无限的水平扩展,具备强一致性和高可用性。TiDB 的目标是为 OLTP (Online Transactional Processing) 和 OLAP (Online Analytical Processing) 场景提供一站式的解决方案。
一种可靠的方式是 使用解压后的备份文件(必须是Xtrabackup的物理备份)来估算当前数据库的体积。 mysqldump这种逻辑备份的方式,不便于直观的比对数据库体积的增长。
随着3.4版本的发布,迎来了一大波新功能,社区特此推出#3.4版本新功能介绍及实践#专栏,一一盘点。敬请期待。
一、监控基础 1、监控处理过程 采样---->存储----->报警---->展示 (1)、采样 采样的监控数据采集方法:ssh/telnet、SNMP、Protocol v3、IPMI(智能平台管理接口)、TLS。 (2)、数据存储 数据类型:历史数据(nvps)、趋势数据。 数据存储系统:rrd(轮询数据库); SQL(关系型数据库,MySQL/PostgreSQL); NoSQL(反关系型数据库,Redis/MangoDB); 时间序列存储。 (3)、主机的四种监控接口:zbx、snmp、jmx、ipmi。 2、常用的开源监控工具 (1)、cacti:强大的【数据展示】功能。 cacti是基于php来编写的; 利用SNMP协议采集样本数据; 利用rrdtool进行数据存储; 报警机制有限。 (2)、nagios:强大的【报警机制】。 nagios不支持历史数据和趋势数据保存; 数据展示功能有限。 (3)、zabbix:集cacti、nagios优点。 强大的数据展示功能; 强大的报警机制; 支持历史数据和趋势数据的存储; 支持脚本实现故障的数据修复。 (4)、ganglia:用于集群监控。 ganglia用于集群监控时,可以实现多台主机的多种集合数据的集中展示。 二、zabbix -----------www.zabbix.com Zabbix功能特点 概述 Zabbix是一个高度集成的网络监控解决方案,一个简单的安装包中提供多样性的功能。 数据收集 可用性和性能检查 支持SNMP(包括主动轮训和被动获取),IPMI,JMX,VMware监控 自定义检查 按照自定义的间隔收集需要的数据 通过server/proxy+agents来执行 灵活的阀值定义 您可以非常灵活的定义问题阈值,称之为触发器,触发器从后端数据库获取参考值 高度可配置化的告警 可根据递增机制,接收方和媒介类型自定义发送告警通知 使用宏变量可以使告警通知更加高效有用 自动相应动作可包含远程命令 实时图表绘制 使用内置图表绘制功能可以将监控项的内容实时绘制成图表 Web监控功能 Zabbix可以追踪模拟鼠标在Web网站上的点击操作,来检查Web的功能和响应时间 丰富的可视化选项 支持创建自定义的图表,一个试图集中展现多个监控项 网络拓扑图 以仪表盘的样式自定义大屏展现和幻灯片轮询播放 报表 监控内容的高级(业务)视图 历史数据存储 数据库数据 可配置历史数据 内置数据管理机制(housekeeping) 配置简单 将被监控对象添加为主机 在数据库中获取主机进行监视 应用模板来监控设备 使用模板 在模板中分组检查 模板可以关联其他模板 网络发现 自动发现网络设备 监控代理自动注册 发现文件系统,网络接口和SNMP OID值 快捷的Web界面 PHP Web前端 可从任何地方访问 你可以定制自己的操作方式 审核日志 Zabbix API Zabbix API为Zabbix 提供了对外的可编程接口,用于批量操作,第三方软件集成和其他目的 权限管理系统 安全用户认证 特定用户可以限制访问特定的视图 功能强大,易于扩展的agent 部署在被监控对象上 支持Linux和Windows 二进制代码 为了性能和更少内存的占用,用C语言编写 便于移植 为复杂环境准备 使用Zabbix proxy代理服务器,使得远程监控更简单 结构 Zabbix由几个主要的软件组件构成,这些组件的功能如下。 Server Zabbix server 是agent程序报告系统可用性、系统完整性和统计数据的核心组件,是所有配置信息、统计信息和操作数据的核心存储器。 数据库存储 所有配置信息和Zabbix收集到的数据都被存储在数据库中。 Web界面 为了从任何地方和任何平台都可以轻松的访问Zabbix, 我们提供基于Web的Zabbix界面。该界面是Zabbix Server的一部分,通常(但不一定)跟Zabbix Server运行在同一台物理机器上。 如果使用SQLite,Zabbix Web界面必须要跟Zab
近期网站运营人员、产品反馈:查询数据耗时太长,网站交互上出现明显加载缓慢的情况 分析问题发现:
贴源层,一般来说抽取的是源系统的数据,是一个数据缓冲区,和源系统保持一致,但并不是说贴源层的数据就可原来的一模一样不变了
某医药集团信息中心数据库组组长,13 年数据库行业从业经历,Oracle OCM,关注 Oracle、MySQL、Redis、MongoDB、Oceanbase、Tidb、Polardb-X、TDSQL、CDH、Clickhouse、Doris、Databend 等多方面的关键领域技术,服务过传统通信、电力,互联网、移动互联网等行业。
專 欄 ❈本文作者:王勇,目前感兴趣项目商业分析、Python、机器学习、Kaggle。17年项目管理,通信业干了11年项目经理管合同交付,制造业干了6年项目管理:PMO,变革,生产转移,清算和资产
写在开篇不管zabbix的后端数据库是oracle还是mysql,当zabbix监控的量级达到了一定程度后,那么对数据库的性能是一个非常严峻的挑战。特别是对历史数据的查询,将会变得非常非常的慢,别告诉我可以建索引优化,当量级达到一定的程度的时候,索引真的没啥效果了。如果再不继续寻找合适的解决方案,那么就一定会引发数据库层面的问题,最终导致服务不可用。当监控数据越来越大的时候,存储不足的时候,怎么办?那就删历史数据呗,但如果要求至少要保存半年甚至1年以上的历史数据,且又高端存储磁阵紧缺面临扩容难题的时候怎么办
关于转载授授权 大数据文摘作品,欢迎个人转发朋友圈,自媒体、媒体、机构转载务必申请授权,后台留言“机构名称+文章标题+转载”,申请过授权的不必再次申请,只要按约定转载即可,但文末需放置大数据文摘二维码。 作者:WilliamMarkito 翻译:姜咏耀, Helen 审校:Rebecca,Shawn 素材来源:https://blog.pivotal.io/big-data-pivotal/case-studies/an-open-source-reference-architecture-for-real
领取专属 10元无门槛券
手把手带您无忧上云