专栏首页云+技术从传统运维到云运维演进历程之软件定义存储(二)

从传统运维到云运维演进历程之软件定义存储(二)

上回书说到一般企业使用Ceph会经历几个关卡:硬件选型 —— 部署调优—— 性能测试  架构灾备设计 —— 部分业务上线测试 —— 运行维护(故障处理、预案演练等)。

今天来重点讲下部署调优关卡。许多Ceph新手在测试环节以及预生产的时候会对Ceph集群的部署以及调优产生困扰,A公司运维小哥也遇到了部署和调优问题。下面来看看A公司运维小哥是如何解决这个问题的。

关卡二:部署调优关(部署)

难度:三颗星

上篇文章开头我也说到了,部署Ceph是新手的噩梦,对于传统运维来说部署一套Ceph是很难的事情,A公司运维小哥在官网以及Ceph中国社区的相关资料和帮助下才渐渐熟悉了什么是Ceph、它能做什么。在相关了解Ceph之后,A公司运维小哥开始部署Ceph。

下面说下部署过程,以及部署过程中的一些坑。

部署过程(按照官网步骤开始一步步做)

1. 安装Linux操作系统;

2. 配置系统IP,配置hosts文件,关闭防火墙和selinux,配置节点间免密访问;

3. 配置Ceph源;

4. 安装Ceph;

在部署的过程中,经历了三战三败的过程:

第一回合:网络问题

一开始就遇到了因为网络的问题而导致下载包失败,后查阅相关资料找到Ceph中国社区有篇文章“如何使用国内源部署Ceph”,于是采用国内Ceph源,解决了此问题。

图1:网络问题

第二回合:磁盘问题

解决了网络问题又迎来了磁盘分区的问题,运维小哥折腾了半天没弄好,后来在Ceph中国社区群友的帮助下解决了此事。遇到这种情况一般有两种原因:

一:磁盘提前分好区了

二:磁盘已挂载

解决办法:

一:删除分区

二:卸载硬盘&删除分区

图2:磁盘问题

第三回合:时间问题

搭建了好久终于搭建完了,但是又面临着一个问题,就是OSD服务进程在,但是ceph osd tree查看OSD却显示down状态,让运维小哥百思不得其解。

图3:OSD节点图

图4:OSD进程图

从上图可以看出,Ceph OSD进程在运行,但是ceph osd tree查看OSD却显示down状态。

而此时就是考验一个运维人员的处理故障的基本素质,好在这个运维小哥有过一两年的经验,经过基本排查,最终确定了是时间问题。由于三个节点时间不一致而导致的这个问题,这里称之为“OSD打摆子”。不只是时间问题会导致“OSD打摆子”问题,有时候也会因为网卡问题而导致“OSD打摆子”。

图5:Ceph节点1

图6:Ceph节点2

图7:Ceph节点3

其实在开始部署Ceph的环境准备环节就说到了要配置NTP服务器,然而大部分人容易忽略。其实在任何时候时间问题是排在第一位的,下面举两个例子说明下因为时间问题而产生的一些问题。

1.某云平台由于时间问题,导致云主机创建不了、宕机等问题。

2.某分布式文件存储由于时间问题,导致数据分布不均衡、脑裂等问题。

上述说的节点时间问题导致OSD出现“打摆子”故障,因为时间而产生的问题远不止于此,虽然可以部署成功,但是后续也会产生一系列莫名其妙的问题,如MON选举问题,OSD数据同步的问题等等。

所以云平台也好存储也好,都会因为时间而产生不必要的故障问题,建议运维人员要注重时间问题。

图8:Ceph集群

好了言归正传,上图是运维小哥新搭建好的集群。三节点、六个OSD的Ceph小集群。希望本文能够给予Ceph新手参考,请读者见仁见智,预知后事如何,请期待《部署调优关卡之调优》。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 从传统运维到云运维演进历程之软件定义存储(一)

    运维是企业业务系统从规划、设计、实施、交付到运维的最后一个步骤,也是重要的步骤。运维从横向、纵向分可以分为多个维度和层次,本文试图抛开这纷繁复杂的概念,讲述一个...

    DevinGeng
  • 耿航:开源云技术如何在传统企业落地

    如今,互联网企业依靠技术优势,深刻影响和改变着人们的生活和工作,其中,开源技术孕育了互联网企业发展。在云计算、大数据、AI、IoT的背后,是OpenStack、...

    DevinGeng
  • 从传统运维到云运维演进历程之软件定义存储(三)下

    上回书讲到了运维小哥的调优方法论(上),对于Ceph运维人员来说最头痛的莫过于两件事:一、Ceph调优;二、Ceph运维。调优是件非常头疼的事情,下面来看看运维...

    DevinGeng
  • SDNLAB技术分享(十七):Ceph在云英的实践

    大家好,我是云英负责存储的研发工程师,杨冠军,很高兴今天能在这里跟大家一起讨论分享下Ceph和Ceph在云英的实践。 首先我先介绍下,Ceph是什么,我们为什么...

    SDNLAB
  • 大会活动|腾讯优图亮相首届进博会,人工智能“黑科技”可实现“刷脸”秒入场

    11月14-15日,英特尔人工智能大会在北京举行,来自全球2000多名人工智能领域最具影响力的专家学者、行业领袖等齐聚一堂,共同探索AI的最新发展趋势,作为英特...

    优图实验室
  • 大会活动|Techo开发者大会-腾讯优图:行人重识别技术方向(ReID)的前沿探索

    11月6日,腾讯首届Techo开发者大会在北京召开。在 “云时代的人工智能平台及算法应用分论坛”上,腾讯优图高级研究员彭湃就《腾讯优图在行人重识别技术方向(Re...

    优图实验室
  • 大会活动|腾讯全球合作伙伴大会 - 腾讯优图提供一站式AI+行业服务,全面助推产业升级

    11月1日,2018腾讯全球合作伙伴大会在南京江苏大剧院召开。此次大会以“开放•共生”为主题,继续以架构调整中提到的新战略“扎根消费互联网,拥抱产业互联网”为核...

    优图实验室
  • 腾讯优图贾佳亚:当AI进入产业应用时代时,计算机视觉技术更应该服务于人才对!

    在昆明的腾讯全球数字生态大会 AI 分论坛上,贾佳亚以三个不同领域应用案例为基础总结表示,“计算机视觉人工智能在诸多领域都已落地,并且有了较为成熟的应用,逐渐成...

    AI科技大本营
  • 贾佳亚离开腾讯优图实验室,创立AI公司思谋科技获 Pre-A 轮融资

    2 月 27 日晚间机器之心消息,原腾讯杰出科学家、优图实验室 X-Lab 负责人贾佳亚离职创立了一家新的 AI 公司——思谋科技 (SmartMore)。贾佳...

    机器之心
  • DeepMind开发新AI:学习理解其他AI思想并进行预测

    任何与Siri或Alexa有过互动的人都知道,数字助理根本不懂人类。它们需要的是心理学家所谓的心智理论,即对他人信仰和欲望的认识。现在,DeepMind已经开发...

    AiTechYun

扫码关注云+社区

领取腾讯云代金券