9月底的时候,我们团队负责的两个系统在几周内连续发生了两次线上的生产故障,虽然最后并没有发生严重的损失,但是领导免不了要提一些更高的要求,围绕 保持安全稳定,避免故障再次发生 这个目标需要梳理种种可能的优化措施,也借此机会来梳理下我对于如何做好运维管理工作的一些看法,欢迎各位同行批评指正。
对设备进行巡检是工厂日常管理中必不可少的工作之一,从前很多工厂使用纸质记录打钩的方式进行设备巡检,但纸质巡检单不易保存也不方便进行查阅或汇总,除此之外光靠打钩很难保证巡检的真实性,不能起到防假检的功能。
中移信息平台能力中心数据库团队成员,主要负责 MySQL、TiDB、Redis、clickhouse 等开源数据库的维护工作。
2018年12月,经过嘉维蓝鲸项目组近半年的努力奋战,太平集团成功上线了蓝鲸研发运营一体化平台,实现了IT运维全流程标准化和调度自动化,并取得了如下收益:
宁波信泰机械有限公司是敏实集团的全资子公司,是一家专业研发、生产汽车各种饰条的大型汽车零部件企业。
车间工厂等货物人员密集场所,对消防安全的要求很高。消防设备管理自然是生产制造型企业的核心之一。
攻防演练建议站在黑客的视角下,审视其攻击流程,再针对性的进行防守,防止出现木桶效应,即攻击者只会从短板攻入,但构建的防守措施却和短板无关。
工业安全先驱H.W.海因里希(Herbert William Heinrich)在1930年代提出的关于工作场所事故和非致命伤害之间关系的理论。海因里希在其著作中提出,大约有88%的事故是由人的不安全行为引起的,10%是由不安全的机械或物理条件引起的,而余下的2%是不可避免的“Acts of God”。
对于数据中心,运维工作的重要性不言而喻,在数据中心生命周期中运维管理是历时时间最长的一个阶段。数据中心运维的工作主要是对数据中心各项管理对象进行 系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称,具体包括对机房环境基础设施部分的维护,系统与数据维护,管理工具的使用,人员的 管理等方面。投资巨大的数据中心,为了能够尽快得到收益,就需要在运维的工作上多下工夫,切勿进入“一流设备、二流设计、三流运维”的不良运营之中,高品 质数据中心运维的工作至关重要。那么如何才能提升数据中心的运维水平,本文提
准时达是富士康科技集团授权的供应链科技管理平台服务公司,拥有近20年的精益制造业供应链管理实践经验,为企业提供从原材料采购端到工厂制造,再到终端消费环节的“端到端”国际供应链一体化解决方案。
这一年,蓝鲸平台从自动化运维平台,重新定义为研发运营一体化平台,实现了CI、CD、CO的IT管理全生命周期的打通。
尤其是在节前高峰等重要时间点,提前进行风险和容量评估等工作显得更为重要和紧急,而如何利用巡检信息进行综合研判也就显得更有价值。
数据库的日常巡检可以说是保障系统稳定运行的基础,虽然不同的运维团队、不同的数据库,都会有适合自己的巡检体系,但是其中很多内容还是可以互相借鉴的。技术社群的这篇文章《Oracle数据库日常巡检指令》给我们提供了Oracle数据库日常巡检指令,虽然只针对Oracle,但是一些巡检的方向还是值得借鉴和学习的。
传统的点检维护、检查等记录多为纸质版,使用“二维码+微信小程序”可实现表单记录电子化,现场记录反馈实现“扫、填、发”,节约办公纸张。
随着现代物业管理逐渐规模化、规范化、标准化以及专业化,物业公司借力数字化的管理平台来提高物业服务效率和质量。
公司网络传输机房(含分前端机房、小区机房)的维护责任主体和设备定期巡检责任主体是公司网络运维部。
首先看 CPU 内存、硬盘 io 的消耗程度,其中重点是硬盘使用率,要做好准备,避免厂家期间业务写入增长,磁盘占满。
长期以来,铁路运输在我国运输业中占据着举足轻重的地位。而铁路突发性意外事故频发,反映出我国列车设备日常检修、调车作业的执行、巡检人员作业情况等方面仍存在严重弊端。
针对设备状态不透明、纸质记录效率低、故障报修不及时等设备点巡检的常见问题,可以在草料二维码上自主搭建涵盖点检、巡检、报修、维修、保养等功能的管理系统,无需安装APP,微信扫码就能查看设备档案、用表单替代纸质检查表。
对于很多生产制造类企业来说,设备的巡检、维保是设备管理中不可或缺的环节,也是一个”老大难“的问题。传统的做大是巡检人员在设备旁的纸质巡检表上签字,签了字就等于完成巡检工作,不仅会让巡检流于形式,也无法掌握设备的具体情况。
设备巡检是很多企业的常态化工作,目的是掌握设备运行状况及周围环境的变化,及时发现设备隐患和潜在风险,进而减少故障的发生,保持设备处于良好的运行状态,保障设备安全和系统稳定。
百度大厦的一名安保人员手机里弹出这样一条信息。发信息的是他的“新同事”,一位近期上岗百度深研大厦的智能助手——小度巡检机器人。
我姓王,同事都叫我隔壁老王,这是有典故的。 我们技术总监就坐在我隔壁。每次网站挂了,同事们远远就能听见总监的怒吼:“把隔壁老王给我叫来!” 所以大家都知道公司有个隔壁老王,老出Bug。 天知道我已经多久没睡过囫囵觉了,我宁可用再单身十年来换公司系统的一生平安。 我每天比普通员工以及运维早半小时到公司,第一件事就是开始检查数据库的监控,进行数据库巡检,确认没有问题或者及时发现问题并在上班时间之前解决问题。 现在特殊时期,在家远程办公,暂时从同事们的耳朵里消失的我,就再也没和工作分开了。 今天是开工第一天,
一 基础安全设备包含哪些? 下图是一个典型的企业业务网络架构包含常见的安全设备。 📷 基础安全设备包含构造业务安全防御系统的常用安全设备,能够搭建深度防御体系的各种安全设备、安全软件。大型的互联网结构不太一样,主要为数据流量很大,传统安全厂家的设备很难满足需求,攻击检测和防护会自己开发,本文还是以传统业务网络为主。传统业务网络包含的安全设备一般有以下几种: 1.1 检测告警类 网络入侵检测 用于检测网络入侵事件,常见部署在核心交换上,用于收集核心交换机的镜像流量,通过检测攻击特征形
在工厂日常的生产设备管理中,如何将设备信息比如:设备状态、运行情况、维修数据、巡检数据、备件数据进行高效管理,设备的信息数据是一件非常棘手的工作。管理人员需要实时掌握设备的运行情况,才能合理安排生产。如果设备存在安全隐患或者设备需要维修却没有及时处理,会造成生产事故,给企业带来损失。
1985年,微软发布了第一代的Excel。现在,Excel成为了许多打工人的必备工具,却也在很多人的日常工作中,带来了海量跨表同步、大批数据对齐的日常繁琐工作,逐渐沦为“表哥”“表妹”。
随着移动互联网技术的不断发展和智能手机终端普及,二维码技术在各个领域都得到广泛的应用,并且发挥了重要作用。
做云安全运营也有一年多时间了,对云上安全建设和运营有一点粗浅的经验,希望可以抛砖引玉,借此文章能有机会和大佬们交流 安全运营,安全建设方向的经验。
对注塑机进行巡检是注塑机管理中不可或缺的环节之一,定期的巡检可以掌握注塑机的运行情况,及早发现安全隐患,从而尽早解决问题,提升生产效率。
为了保障每个消防器材都能正常使用,消防部门需要对所有的设备进行日常巡检,由于消防设备数量大的原因,很容易出现漏检情况,从而导致消防器材无法得到有效的管理。为了避免这种情况的发生,营口消防西市大队使用草料二维码为消防设施器材批量制作了巡检二维码。
传统管理设备主要靠手动纸质记录或 Excel ,管理和整理数据较难,且存在易错、易丢失,难查找。很难追踪每一个设备的来源,修改、删除、改动等具体数据,更没法准确记录并反馈设备的具体状态,无法实时更新设备状态。
常言道常在河边走,那有不湿鞋。作为一名Java开发人员,遇到OutOfMemoryError那可是在正常不过了,无论是别人写的代码导致的,还是别人写的代码导致的,总之不是我干的,你把Git记录拍在我脸上也不是我干的。遇到OOM不要慌,看一下姜同学是怎么解决的。
为了让食品加工厂更好地管理设备,提高生产效率,保障食品质量,易点易动提供一站式设备管理方案。易点易动是一款专业的设备管理软件,可以帮助食品加工厂进行设备的台账管理、设备巡检、设备维修、设备保养、备件管理和设备监控。下面我将详细介绍易点易动在各个方面的优势和帮助。
当然,查看当前的磁盘和内存使用情况df -h,free -m,是否使用numa和swap,或是否频繁交互信息等。当然,还有其他的监控项目,这里就不一一赘述了。 除此之外,还需要关注日志类信息,例如:
“不想当将军的士兵不是好的战士”、“不想当CIO的DBA不是好的运维”。在每天面临如此多的来自工作量、运维安全、技术更新挑战的同时,我们还需要不断的成长与思考:
随着工业化和信息化的发展,设备维修和巡检已经成为企业日常管理中不可或缺的重要环节。然而,传统的设备维修和巡检方式存在许多问题,例如耗时、费力、效率低下等,这些问题不仅影响了设备的运行稳定性,还增加了企业的成本。为了解决这些问题,易点易动设备管理系统应运而生,它是一款全新的设备管理系统,可以帮助企业提高设备维修和巡检的效率。
运维服务一个项目二十多台(或者多台)服务器,每天要做服务器的性能巡检工作是查看服务器的CPU、内存、磁盘空间是否在正常值范围内。像这样每天或者每个固定时间段都做相同的重复工作,为了简化重复的工作,我写了基于liunx服务器的自动巡检脚本,在crontab中设定一个固定时间进行自动执行即可,以减少人工重复劳动的工作。
中国移动通信集团北京有限公司(下称北京移动)成立于1999年,隶属于中国移动通信集团公司,秉承“正德厚生,臻于至善”的企业核心价值观,紧密围绕“做世界一流企业,成为移动信息专家”的战略定位,以卓越品质锻造一流信息服务,用创新精神努力实现从优秀向卓越的新跨越,着力推动“移动改变生活”。
施工现场、作业车间、管道电线、物品仓库、沿街店铺、物业小区等需要日常巡逻检查的地方,为每个巡查点位生成一个二维码,微信扫码记录巡查情况,上报隐患和整改信息,发现异常问题及时反馈给相关负责人。
首先看 CPU内存、硬盘io的消耗程度,其中重点是硬盘使用率,要为长假做好准备,避免单位在过年期间业务写入增长,磁盘占满。
车辆在运输行业,工程项目中是十分重要的设备。对于一般企业,行政车辆的使用情况也需要进行简单的管理,方便实时了解车辆的情况。
请教潘老师:运维系统业务建模过程中,,运维人员的日常巡检过程、重大保障活动是业务用例吗?这2个活动是运维的重要客户服务内容,但问题是运维人员是组织内部业务工人,不是组织外的。 梅内.西马尔(124***74) 13:57:10 运维人员是否将发现的问题上报给某某,研究的组织应该是某某。运维人员期望该组织能提供的服务可能是,接收日常巡检信息,异常信息,反馈异常处理结果,跟踪异常处理进程等等 锡山飞狐<la***msn.com> 14:09:38 运维人员通过巡检发现并处理掉潜在的问题,只有无法解决问题时才报告给部门主管或经理;运维保障是比如客户的领导来参观,运维人员确保系统在出现异常时马上应急处理,确保IT系统能继续正常服务。所以运维人员一般不把问题上报。 梅内.西马尔(124***74) 14:13:50 那谁期望这个运维系统改善什么方面的业务问题呢? 梅内.西马尔(124***74) 14:14:15 老大是谁? 锡山飞狐<la***msn.com> 14:16:47 多谢梅兄热心参与讨论。老大就是这个组织(技术服务中心的经理),他希望巡检过程能够规范到位,以便能真正消除隐患,并且过程可追溯。 梅内.西马尔(124***74) 14:18:51 规范到位怎么理解?有什么机制吗? 锡山飞狐<la***msn.com> 14:20:59 比如巡检,必须到真实地去查看每台设备、每个IT系统运行健康指标,而不是不干活,随便填写一个巡检报告单报告没有问题。 梅内.西马尔(124***74) 14:27:19 那如前面所说"一般不上报,遇到问题已处理了。"那么运维人员即使实地查了每台设备,老大也不知道啊,似乎有些矛盾 锡山飞狐<la***msn.com> 14:27:53 "并且过程可追溯" 乐吧(54***762) 14:29:10 图上的业务用例太多了吧?这个组织真的对外提供了这么多有价值的服务吗?建议先找到真正的业务用例,再画时序图,推导出系统用例 梅内.西马尔(124***74) 14:30:13 人家现在就是在找业务用粒来的 锡山飞狐<la***msn.com> 14:32:03 感觉应该还不止这些,现在是不确定"巡检"、"保障"算不算业务用例。这两个业务活动的确是非常重要不可缺少的。 乐吧(543***762) 14:35:50 判断是否是业务用例的标准,应该是它是否对外提供了价值呀,不要将业务过程或某个内部业务流程当作业务用例呀 mousedogpig(511184101) 14:36:08 燕雀安知鸿鹄之智,别把潘老师看扁了 锡山飞狐<la***msn.com> 14:39:18 这两个活动是对外提供了价值,但找不到组织外的直接的业务执行者。 广罗军(120***58) 14:56:18 @锡山飞狐 服务主管领导、客户运维负责人这两个业务执行者是技术服务中心外的吗?怎么感觉是内部部门的主管 锡山飞狐<la***msn.com> 15:10:51 技术服务中心与客户签订合同,然后帮助用户运维他们的IT系统和设备。这个系统的老大是被研究组织的部门经理,服务主管领导是老大的领导;客户运维负责人是被服务的客户方负责人。 广罗军(120***58) 15:11:56 明白了 广罗军(120***58) 15:17:00 @锡山飞狐 是不是还有一个业务用例没有识别?我问个问题:通过日常巡检过程、重大保障活动来对外提供的价值,这个业务用例应该命名为什么?图中目前没有 锡山飞狐<la***msn.com> 15:21:29 问题就是我不知道该怎么画,用例命名可以叫"巡检"、"保障重大活动",但找不到业务执行者。 乐吧(543***762) 15:34:10 @锡山飞狐 从你前面的表述来看,可能只有一个"运维服务"的业务用例,这个才是执行者需要这个组织提供的有价值的服务。而"巡检"只是为了完成这个运维服务,组织Worker需要做的一个重要工作而已,它应该不是业务用例 乐吧(543***762) 15:36:11 至于"保障重大活动",如果客户需要为此付费,我觉得也是业务用例,执行者应该付费客户 锡山飞狐<la***msn.com> 15:51:52 多谢@乐吧 的参与,不是太认同只有一个"运维服务"业务用例,比较认同保障重大活动是业务用例。事实上技术服务中心的上级监管领导需要这个组织提供给他组织运营情况的报表,这一定会是业务用例;客户终极目标是他的IT系统和设备不出问题,安全运行,但为了达到这个目的,需要客服中心提供具体运维服务,并愿意买单,而运维服务包括"定期巡检"、"保障重大活动"、"定期提供IT设备和台账的运行健康状况报表"、"随时提醒异常情况"、"帮助用户临时采购耗材"等等,过程各不相同,客户为了确保服务的质量,也需要有"投诉"、"跟踪查看问题处理过程"等要求。 梅内.西马尔(124***74) 16:00:35 快来买啊
做数仓最重要的是什么?一是模型易用性,二是数据质量。模型易用性我们可以通过建模规范、指标管理等方式去实现。而对于数据质量呢?本篇将以严选数仓为例,从建设目标、保障措施、效果评价等几方面探讨数仓质量建设。
洛钼集团是一家以钼钨的采、选、冶、深加工为主,集科研、生产、贸易为一体的海外上市公司,证劵代码为3993,中文名称为中国钼业,目前该公司市值居世界矿业前30位。洛钼公司以钼为主体,钨和贵金属为两翼,依靠科技创新、建设绿色环保矿山,公司发展战略是占领国际国内市场,将企业建设成为世界领先的国际化稀贵金属矿业集团。
本篇为管理要求中系统运维管理的部分,等级保护中内容最多的一个章节。文中内容都是个人观点,如有不对的地方欢迎纠正。文章以等保三级系统为基础,从合规角度解读要求。
这是Oracle数据库日常运维中很常见的一个场景,安装目录满有时不光会导致无法记录最新数据库的日志信息,导致遇到问题无法查到最新的日志信息,还会引发一些奇怪的问题。
进入数字化时代,IT架构面临的复杂性越来越高,业务连续性管理这项IT最基本的工作,也成为了很多行业或企业IT运维的最核心任务;业务连续性管理是一个持续不断提升的过程,围绕“快速发现事件→快速响应事件→快速定位与处理事件→减少事件发生”的事件生命周期闭环,结合一体化运维平台,是提高业务连续性保障水平的一种好思路。
关于MySQL周期表管理,近期做了初步的设计,总体上是希望把周期表的管理和业务同学对接起来,实现流程化的管理。
设备巡检系统的搭建是围绕着设备二维码展开的。给每个设备生成独立的二维码,编辑设备信息和巡检表单,再进行数据管理和协作权限管理,最后是进阶功能。
励炼四:运营模式的精细化是如何炼成的? 4.1: 不断“试优”造就了运行模式的“多样化”: 随着运行环境的变动和运营经验的积累,空调系统的运营模式也“丰富多彩”。 以冷冻站为例,夏季开启冷机,以“制冷模式”为主;春秋季以“板换+蓄冷罐”的“换季模式”为主;冬季改用板换,以“节约模式”为主; 在夏季启用“制冷模式”时,根据不同时期的负载量大小,启用不同的运行模式:负载较低时期,启用“错峰用电”模式:夜晚开“冷机”给“蓄冷罐”充冷、白天依靠“蓄冷罐”长时间放冷,提供冷量供末端空调使用;负载增大的过程中,开启
领取专属 10元无门槛券
手把手带您无忧上云