我刚刚在戴尔的PowerEdge R410中更换了主板,它是我们的虚拟服务器之一(运行Ubuntu10.04.3LTS)。我对Linux相当陌生,在交换后网络完全崩溃时,我感到非常惊讶。另一个免责声明是,我一开始并没有构建我们的虚拟服务器,并且对Linux的工作方式的了解非常有限。交换主板后,我运行LifeCycle Controller应用程序,并应用了各种升级(其中最著名的是NIC固件升级)。经过大量的研究,我终于通过编辑/etc/udev/70-持久性-net.ules文件来“修复”网络。在该文件中,我删除了先前主板的2个旧Broadcom ( bnx2 )条目,然后将新的bnx2 eth2和eth3分别重命名为eth0和eth1。然后,我将eth0和eth1移到文档的顶部。(igb)条目是一个基于PCI的Intel Gigabit NIC,目前还未使用。下面是我的70-Persistent-net.ules文件的内容:
# This file was automatically generated by the /lib/udev/write_net_rules
# program, run by the persistent-net-generator.rules rules file.
#
# You can modify it, as long as you keep each rule on a single
# line, and change only the value of the NAME= key.
# PCI device 0x14e4:0x163b (bnx2)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="78:2b:cb:20:9d:71", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"
# PCI device 0x14e4:0x163b (bnx2)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="78:2b:cb:20:9d:72", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth1"
# PCI device 0x8086:0x10c9 (igb)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="90:e2:ba:0c:7e:f9", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth2"
# PCI device 0x8086:0x10c9 (igb)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="90:e2:ba:0c:7e:f8", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth3"这解决了网络完全崩溃的问题(以前无法打开网关),但在服务器硬件随机重新启动的情况下,仍然存在一个更大的问题。我不能轻易地再现崩溃,但它需要启动在机器上运行的5位来宾OSes,然后执行Splunk查询/pings/运行X11转发到puTTY等。硬件本身通过了所有的自我测试,而一名戴尔技术人员审查了我收集的DSET,并提到所有的硬件看起来都很棒。
这是我的/etc/网络/接口文件:
auto lo
iface lo inet loopback
auto eth0
iface eth0 inet manual
auto eth1
iface eth1 inet manual
# 10.1.225.x network
auto br0
iface br0 inet static
address 10.1.225.12
netmask 255.255.255.0
network 10.1.225.0
broadcast 10.1.225.255
gateway 10.1.225.1
bridge_ports eth0
bridge_fd 9
bridge_hello 2
bridge_maxage 12
bridge_stp off
#vlan 231
auto eth1.231
iface eth1.231 inet manual
up ifconfig eth1.231 up
#KVM bridge, vlan 231, via eth1
iface br231 inet static
bridge_ports eth1.231
bridge_fd 9
bridge_hello 2
bridge_maxage 12
bridge_stp off
##vlan 229
#auto eth1.229
#iface eth1.229 inet manual
# up ifconfig eth1.229 up
##KVM bridge, vlan 229, via eth1
#auto br229
#iface br229 inet manual
# bridge_ports eth1.229
# bridge_maxwait 5
# bridge_fd 1
# bridge_stp on
#
# !!!!! NOTE (MGRACE): This *is* used !!!!!
#
#No! Unused
auto br1
iface br1 inet manual
bridge_ports eth1
bridge_fd 9
bridge_hello 2
bridge_maxage 12
bridge_stp off
#auto br2
#iface br2 inet manual
# bridge_ports eth1
# bridge_fd 9
# bridge_hello 2
# bridge_maxage 12
# bridge_stp off
#auto br3
#iface br3 inet manual
# bridge_ports eth1
# bridge_fd 9
# bridge_hello 2
# bridge_maxage 12
# bridge_stp off我已经扫描了我能拿到的每一根木头,还没有找到一块面包屑。戴尔的技术人员提到,这可能和更改Hypervisor的MAC地址一样容易,但到目前为止,我一直无法弄清楚如何做到这一点。任何帮助都是非常感谢的,我很乐意提供任何可能被证明是有益的额外信息。
谢谢,-Snipe
发布于 2013-12-11 01:03:40
好消息:结果是服务器内部的一个错误的电源分配块导致了随机重新启动。如果这个问题在两周前不是指数级恶化的话,我就不可能搞清楚这个问题了,这使得戴尔的一家技术公司和我最终找到了消息来源。对不起,大家都误诊了!
-Snipe
https://askubuntu.com/questions/382756
复制相似问题