Nutanix 超融合维护常用命令
1. 集群健康检查和状态监控
查看集群状态
ncli cluster status
显示集群中所有节点的健康状况,帮助判断节点是否出现故障。
执行集群健康检查
ncc health_checks run_all
运行全面的健康检查,检查集群中的所有关键组件(如存储、网络、服务等)是否正常运行。
查看存储池状态
ncli storage pool list
列出集群中所有存储池的状态,帮助检查存储池是否健康,是否存在磁盘故障。
2. 存储和磁盘相关命令
检查磁盘状态
smartctl -a /dev/sdX
使用 smartctl 命令检查磁盘的健康状况,其中 /dev/sdX 是要检查的磁盘设备。帮助识别硬件故障,如磁盘损坏。
查看存储池详细信息
ncli storage pool status
显示存储池的详细状态,帮助诊断存储故障和数据重建进度。
重建存储池
ncli storage pool rebalance status
查看重建进度和数据再平衡状态。
3. 虚拟机和数据恢复
恢复虚拟机快照
acli vm.snapshot_revert vm_name snapshot_name
恢复虚拟机到某个快照状态,以便恢复数据。
检查虚拟机状态
acli vm.list
查看虚拟机的状态,确保虚拟机没有因数据损坏而变得不可用。
4. 元数据和集群修复
修复集群
ncli cluster repair
用于修复集群的元数据问题,尤其在配置错误或故障时。
查看集群健康报告
ncli cluster health-report
生成集群健康报告,帮助识别潜在的元数据或存储问题。
5. 节点和服务相关命令
查看服务状态
service cvm status
检查控制虚拟机(CVM)服务的状态。如果服务未运行,需要进行重启。
重启 CVM 服务
service cvm restart
如果 CVM 服务出现问题,可以使用此命令重启服务。
查看节点的状态和日志
cat /var/log/cvm/cvm.log
检查 CVM 的日志文件,查找可能的错误信息,帮助识别节点故障的原因。
6. 备份和恢复命令
检查备份状态
ncli cluster backup status
查看集群的备份状态,确保备份是否成功,可以在数据损坏时恢复。
恢复集群数据
ncli cluster restore <backup_id>
从备份恢复集群数据,确保数据可以从备份中恢复。
7. 查看系统和日志文件
查看系统日志
cat /var/log/syslog
查看系统日志,帮助排查硬件、网络等引起的数据损坏问题。
查看其他日志文件
检查这些日志文件,查看是否有异常信息,帮助定位数据损坏的根本原因。
8. 网络相关命令
检查节点间网络连接
ping <node_ip>
使用 ping 命令检查节点之间的网络连接是否正常,排除网络问题导致的集群通信故障。
查看网络接口状态
ifconfig
查看节点的网络接口状态,确保网络接口没有出现故障。