DCOS(Data Center Operating System)定位是数据中心操作系统,也称为基础设施管理,其本质就是用于支撑数据中心里对物理资源(如物理服务器和网络设备)生命周期进行自动化管理,比如CMDB数据导入、裸机资源发现、服务器OS部署、配置初始化、远程开关机&重启、服务器&网络设备的监控和告警等。
DCOS当前在产品设计上以IDC为基本部署单元,每个IDC需要部署一套服务,各IDC部署的DCOS服务只能管理本IDC物理机和网络设备。
业务生产环境涉及多Region多Zone多IDC,需要在控制台上集中查看以及管控所有资源,要求服务高可用,根据业务规模可以灵活进行垂直和水平扩展。
针对上述问题,进行了以下改进。
最终的效果是,登陆运营端控制台,进入基础设施模块,物理机列表页上方默认选中某个Region,可以看到该Region下所有IDC的物理机、网络设备、IP、机架机位、专线等信息,选中特定IDC物理机,可以发起带外开关机、部署OS等操作,具体请求先到达yunapi,之后被路由到CGW,由CGW封装整合业务逻辑,最终路由请求到该物理机所在IDC的DCOS服务处理,处理结果沿调用链反向透传给前端。每个IDC部署的DCOS服务完成本IDC网络设备的日志收集、配置下载、snmp采集、xflow采集,之后网络设备列表页可以查看本Region所有IDC的网络设备,打开网络详情页可查看对应IDC网络设备日志、下载网络设备配置,打开监控页面能看到特定IDC网络设备整机性能以及各端口指标,专线页面可以看到对应IDC网络设备特定端口的会话流量信息。实际交付过程中,预先汇总各IDC DCOS相关Region和IDC级别的变量,写入弹性交付框架的全局变量,自动完成DCOS服务部署以及启动。
注: Region、Zone、IDC:Region指地域;Zone指可用区,1个Region可以有多个Zone;IDC指数据中心,DCOS底层服务的最小部署单元,每个IDC部署一套DCOS-NGINX管控本IDC各类资源; 运维web控制台:web入口,业务人员通过web控制台查看以及操作所有Region所有资源; 云API:控制台发出的请求被就近的yunapi模块接收,yunapi模块根据参数中地域信息,将请求路由到DCOS-CGW,根据实际情况可以每个Zone部署一套,也可以多个Zone共用一套; DCOS-CGW:CGW层,接收yunapi模块转发过来的请求,区分请求类型,对于查询类请求,直接调用本IDC的DCOS-NGINX进行处理,对于操作类请求,根据参数中的idcid将请求路由到对应IDC的DCOS-NGINX进行处理,根据实际情况可以每个Zone部署一套,也可以多个Zone共用; DCOS-NGINX:DCOS底层服务,管控本IDC各类资源,包括物理机、网络设备及监控告警等; dcos:DCOS底层服务依赖的数据库,IDC级别,存储本IDC内部告警、控制类、snmp、xflow、syslog等实体信息,用于本IDC各模块管控本IDC各类资源; dcos_cmdb:DCOS底层服务依赖的数据库,Region级别,存储Region下所有IDC的服务器、网络设备、IP、机架机位、专线、磁盘、操作日志等,提供接口供上层增删改查。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。