在CentOS系统中查看InfiniBand(IB)卡信息是高性能计算、存储网络等领域常见的操作,InfiniBand是一种高性能、低延迟的通信技术,常用于HPC集群、分布式存储等场景,本文将详细介绍如何在CentOS系统中查看IB卡的相关信息,包括硬件识别、驱动状态、网络配置等关键内容。

识别IB卡硬件信息
首先需要确认系统中是否已安装IB卡硬件,可以通过以下命令列出所有PCI设备,筛选出与InfiniBand相关的设备:
lspci | grep -i "infiniband"
如果输出结果中包含"Mellanox"或"Intel"等厂商的IB卡信息,说明硬件已正确识别。
04:00.0 InfiniBand controller: Mellanox Technologies MT27500 [ConnectX-3]
还可以使用lshw工具获取更详细的硬件信息:
sudo lshw -class network | grep -i infiniband
检查IB卡驱动状态
IB卡的正常运行依赖于正确的驱动程序,在CentOS系统中,IB卡通常使用Mellanox驱动或OFED(OpenFabrics Enterprise Distribution)驱动,可通过以下命令检查驱动加载状态:
lsmod | grep -i "mlx"
如果输出显示mlx4_core、mlx4_ib等模块,说明驱动已加载,若未加载,需安装OFED驱动包:
sudo yum install ofed-utils
安装完成后,重启系统或手动加载模块:
sudo modprobe mlx4_ib
查看IB卡网络配置
IB卡的网络配置与传统网卡有所不同,通常使用子网管理(Subnet Manager, SM)和IP地址 over IB(IPoIB)技术,以下是查看IB网络配置的关键命令:

1 使用ibv_devinfo查看设备状态
ibv_devinfo
该命令会列出所有IB设备,包括设备名称、状态(PORT_ACTIVE表示正常工作)、传输速率等信息。
hca_id: mlx4_0
transport: InfiniBand (1)
fw_ver: 2.42.5000
port: 1
state: PORT_ACTIVE
2 使用ibstat查看统计信息
ibstat
该命令显示IB卡的端口状态、速率、物理状态等。
CA 'mlx4_0'
Port: 1
State: PORT_ACTIVE
Physical state: PORT_UP
Rate: 40
Base lid: 1
LMC: 0
SM lid: 1
Port GID: fe80::200:feff:fe00:0
Link layer: InfiniBand
3 查看IPoIB接口配置
IB卡可通过IPoIB协议配置IP地址,使用以下命令查看接口信息:
ip addr show dev ib0
如果IB卡已配置IP地址,此处会显示类似 eth0 的网络接口信息,若未配置,可手动设置:
sudo ip addr add 192.168.1.100/24 dev ib0 sudo ip link set ib0 up
验证IB网络连通性
配置完成后,可通过ping命令测试IB网络连通性。
ping -I ib0 192.168.1.101
若能正常通信,说明IB网络配置正确,还可使用ibping工具进行更深层的测试:
ibping -c 192.168.1.101
查看IB性能和错误统计
监控IB卡的性能和错误信息对于排查问题至关重要,使用以下命令获取详细统计:

ibv_counters
该命令会显示IB端口的发送/接收数据包数量、错误计数等。perftest工具包中的ib_send_bw和ib_send_lat可用于测试带宽和延迟:
ib_send_bw -x 1 -n 10000 -a -F -d mlx4_0 -p 1
常见问题排查
如果IB卡无法正常工作,可检查以下方面:
- 驱动问题:确认驱动是否正确加载,版本是否匹配硬件。
- 子网管理(SM):确保SM服务已启动,可通过
smstat命令检查。 - 固件版本:使用
ibv_devinfo查看固件版本,必要时升级固件。 - 硬件兼容性:确认IB卡与CentOS版本的兼容性。
相关问答FAQs
Q1: 如何在CentOS中确认IB卡是否被系统正确识别?
A1: 可通过lspci | grep -i "infiniband"命令查看PCI设备列表,若输出中包含IB卡信息(如Mellanox或Intel设备),则说明硬件已被识别。ibv_devinfo命令若能显示设备信息,也表明驱动和硬件工作正常。
Q2: IB卡显示"PORT_DOWN"状态,如何排查?
A2: 首先检查物理连接(线缆、交换机端口),然后使用ibstat查看端口物理状态,若物理状态为"PORT_UP"但逻辑状态为"PORT_DOWN",可能是子网管理(SM)未启动或配置问题,尝试重启SM服务或检查IB卡固件版本。