[TOC]
描述:本文主要记录了DELL服务器相关运维操作与配置,及其故障的解决;
DELL服务器产品命名规则
例如:戴尔 PowerEdge R730数字含义
戴尔存储系列的类别:
服务器外部尺寸分类
U是一种表示服务器外部尺寸的单位,是unit的缩略语
,一般只有机架服务器使用该单位。服务器的厚度以4.445cm为基本单位。所谓“1U的PC服务器”,就是外形满足EIA规格、厚度为4.445cm的产品。
单路和双路服务器的区别? 单路服务器和双路服务器区别为:CPU不同、内存不同、执行效率不同。
ECC (型号后带有E或者芯片数是3的倍数),非ECC
ecc,非ECC,REG ECC
FB-DIMM ECC
REG ECC
Dell 服务器快捷功能按钮:
#此处以DELL的PowerEdge R710为例
F2 - System Setup|系统BIOS
F10 - System Service|系统服务
F11 - UEFI Boot Manager|UEFI Boot Manager
F12 - PXE BOOT
<Ctrl><E> #进入底板管理控制器 (BMC) 或 iDRAC 配置公用程序,从中可访问系统事件日志 (SEL) 和对系统进行远程访问的配置
<Ctrl><C> #进入 SAS 配置公用程序。
<Ctrl><R> #进入 RAID 配置公用程序。
<Ctrl><S> #进入公用程序,为PXE 引导配置 NIC 设置。
以 PowerEdge™ R210为例进行说明:
image-20191225170656941
前面面板说明:
背部面板说明:
NIC 接口指示灯左链右活动:
image-20191225172923516
诊断指示灯:
描述: 主要针对于DELL服务器下RAID对磁盘的管理配置演示,因实践设备有限不一定是通用的但大多数是一致的;
环境说明:
服务器: PowerEdge R710
RIAD卡: PERC H700
实际流程:
Ctrl键+R键
进入RAID配置界面
F2=Operations
WeiyiGeek.
WeiyiGeek.
WeiyiGeek.
1块硬盘可组RAID0、2块硬盘可组RAID0和RAID1、3块硬盘可组RAID0和RAID5、更多的硬盘有更多的组合方案
)→ 设置容量(同一张RAID卡组多个RAID时且容量相同时推荐将容量设置细微差异为不同,不然使用的时候你可能分不清楚哪个盘是哪个RAID的只能通过容量来分辨) WeiyiGeek.
为了保证数据的安全性推荐初始化,初始化时间一般较长
WeiyiGeek.
WeiyiGeek.
通过iDRAC收集TSR日志的操作方法(12/13G):www.dell.com/support/article/sln305282/zh 通过Lifecycle收集TSR日志的操作方法(12/13G):www.dell.com/support/article/sln305280/zh Windows收集DSET日志的方法-V3.7 : www.dell.com/support/article/sln304629/zh RH Linux收集DSET日志的方法-V3.7 : www.dell.com/support/article/sln305293/zh ESXi5.0通过DSET远程收集日志-V3.7 : www.dell.com/support/article/sln272599/zh
描述:本章节主要针对于Dell R730 "BIOS iDRACK+Lifecycle Controller"
固件进行升级;
BIOS更新地址:https://www.dell.com/support/home/zh-cn/drivers/DriversDetails?driverId=6YDCM
固件更新地址:https://downloads.dell.com/FOLDER05590166M/1/iDRAC-with-Lifecycle-Controller_Firmware_40T1C_WN64_2.63.60.61_A00.EXE
环境准备:默认管理IP地址为192.168.0.120,默认用户名、密码为root/calvin
# 原始环境
BIOS 版本 2.3.4
固件版本 2.40.40.40
Lifecycle Controller 固件 2.63.60.61
# 更新环境
文件格式: MS Windows(64位)的更新包 BIOS_6YDCM_WN64_2.4.3.EXE
文件格式: 应用程序 iDRAC8_2.41.40.40_A00.exe
iDRAC-with-Lifecycle-Controller_Firmware_40T1C_WN64_2.63.60.61_A00.EXE
更新方式:
l
2.63.60.61
固件上传位置:iDRAC设置->更新和回滚
然后在Firmware Update: DriverPack等等Complete完成;
WeiyiGeek.Firmware Update
描述: 访问 http://www.dell.com 绑定快速服务编码,然后在“支持”里找到“驱动程序和下载”,在选择类别为用于操作系统部署的驱动程序
此处以R730为例: https://www.dell.com/support/home/zh-cn/product-support/product/poweredge-r730/drivers
更新与使用:
Drivers-for-OS-Deployment_Application_WP3PH_WN64_18.12.04_A00_01
固件;
WeiyiGeek.固件
WeiyiGeek.OS部署
描述:Poweredge 12G r720、r730 是dell的机架式服务器俗称刀片机,当我们需要更改内存时候需要按照以下方式进行插入ECC的内存;
戴尔服务器内存模块安装原则/分布规则 此系统支持灵活的内存配置,从而使系统在任何有效的芯片集结构配置中配置和运行。
DELL R730服务器系统包含24个内存插槽分为两组(每组12个),每个处理器一组。每个12插槽组分入四个通道。
在每个通道中第一个插槽的释放拉杆以白色标记,第二个插槽的释放拉杆为黑色,第三个插槽的释放拉杆标为绿色,插入顺序先白后黑再绿
,通道图示如下图:
WeiyiGeek.DELL 内存卡槽
名词解析:
以下是建议的最佳性能原则:
两个4列RDIMM和3个双列或单列RDIMM
。 一个四列RDIMM安装在带有白色释放拉杆的第一个插槽中时,无法填充具有绿色释放拉杆的信道中的第三个DIMM插槽。内存模块首先从插槽 A2或 B2 开始安装,然后按剩下插槽的数字顺序安装(如 A2、A3、A5、A6、A8和 A9)
。内存插法与处理器个数有关: 对于单处理器系统插槽A1至a12可用
,对于双处理器系统插槽A1至a12和插槽B1至b12可用
。
则请勿填充具有绿色释放卡舌的通道中的第3个DIMM插槽
。
在以下顺序按最高列数填充插槽-首先在带有白色释放拉杆的插槽,然后黑屏,然后呈绿色亮起。
例如如果要混用4列和双列DIMM,则填充具有白色释放卡舌的插槽中的4列DIMM,再填充具有黑色释放卡舌的插槽中的双列DIMM
。
补充知识:
参考地址:
描述:下面主要在R730设备中安装Ubuntu操作系统流程,适用于U盘安装和CD-DVD安装;
安装流程:
选择F11功能按键进行 BOOT Manager 之中
;BOOT Manager Main Menu
之中,此时选择One-shot BIOS Boot Menu
然后根据您的启动盘选择Hard Driver,此外我选择的是 DataTraveler 3.0
;
WeiyiGeek.DELL-BOOT-MANAGER
WeiyiGeek.Ubuntu安装
问题描述:
# 显示错误:前液晶LED显示先后提示CPU和Memory错误
UEFI0058:Uncorrectable memory error has occurred because a dual inline memory module (DIMM) is not functioning.
UEFI0078:One or more Machine Check errors occurred in the previous boot. Check the System Event Log (SEL) to identifiy the source of the Machine Check error and resolve the issues.
UEFI0079:One or more Uncorrectable Memory errors occurred in the previous boot.
UEFI0081:Memory configuration has changed from the last time the system was started.
# 示例:该问题主要出现在 R630 和 R730 中
MEM0701 警告 DIMM_xx 可纠正内存错误率过高。
MEM0702 严重 DIMM_xx 可纠正内存错误率过高。
# LC 日志示例:
2017-03-07 23:08:02 SYS1003 系统 CPU 重置。
2017-03-07 23:08:02 SYS1001 系统关闭。
2017-03-07 23:08:02 MEM0702 DIMM_xx 可纠正内存错误率过高。
问题原因:
内存错误异常而CPU的报错大多是由于内存报错导致的; 可纠正内存错误是一种单位错误,如果在写入或读取操作过程中错误地将 1 更改为0 或将 0 更改为 1,就会出现这一错误。识别出错的特定单位后,可以通过补充错误单位的方式纠正错误。 戴尔认证的 DIMM 将自动执行此纠正在极少数情况下,当 SEL 日志中记录一个可纠正内存错误后,服务器可能会重新启动。
该问题主要出现在 R630 和 R730 中, 该问题仅出现在 2.3.x 版本的 BIOS 中
。
问题排查:
WeiyiGeek.
问题解决方式(不保证每条都OK
):
- 0.尝试释放一下静电先移除电源线,按着开机按钮大概30秒先释放一下静电,重新插入电源线后(请先等待一分钟再接通服务器电源测试)
- 1.根据IDRAC查看到的内存具体信息再对内存做交换槽位(重新拔插一下内存)、减少等操作(`注意:请按照DELL内存安装规则进行安装-与CPU个数有关`)。
- 2.为解决重新启动问题应将 BIOS 更新到最新版本。如果出于操作原因无法更新,应将 BIOS 设置为最低版本:
R430 2.4.2
T430 2.4.2
R530 2.4.2
T630 2.4.2
R630 2.4.3
R730 2.4.3
R830 1.4.2
C4130 2.4.2
C6320 2.4.2
所有模块化刀片服务器 2.4.2
- 3.安装低版本的操作系统
参考连接:
描述: 可纠正内存错误是一种比较常见的内存错误,碰到此报错如何处理呢?
分为硬错误和软错误:
出现可纠正内存错误 (CME) 错误时,请尝试以下步骤:
➀ 更新BIOS(注意一定要下载最新的
):https://www.dell.com/support/home/zh-cn/product-support/product/poweredge-r730/drivers
➁ 卸下并重新安装内存模块或者将模块安装到其他插槽中。
➂ 清除iDRAC并重启iDRAC卡重新获取设备硬件信息。
➃ 运行内存测试以确认故障。
➄ 如果确认硬件故障,请关注公众号“戴尔中国服务”联系我们更换故障内存。
问题描述: 机器原来安装了2012后来想改LINUX, 按照机器F10引导后安装过程中一直会报错can't get kickstart from /dev/sdb1
解决办法(注意点):
1,如有硬阵列卡,请确认BIOS下的 SATA SETTING下为AHCI模式
2,确认阵列配置好,如无数据做快速初始化地址在下方
3,如引导阵列容量大于2T,请将BIOS下的 BOOT SETTING 模式改成UEFI
4,确认redhat版本为可支持的,一般直接引导安装
WeiyiGeek.
参考地址: