Administrator

发布于 2024-09-14 / 26 阅读

0

记录一次GPU集群的存储崩溃

记录一次GPU集群的存储崩溃

集群架构：整个GPU集群由4台GPU服务器、一台CPU服务器、一个存储阵列（大概200T）组成。存储阵列是通过一个万兆交换机连接到这个Node00管理节点。其它计算设备都是走的管理节点的映射。

前两天新到一台服务器，准备并入这个集群里面。供应商需要安装一个软件进行交付，结果导致所有SAN磁盘的I/O出现的问题。

因为供应商不靠谱，然后我们开始排查。最后定位到是因为管理节点的重启，而进行计算的若干节点并没有停止导致数据不一致性。这点也是经常出现在分布式系统里面的情况，而对于磁盘来说，也不用回退检查点，因为本身存储就做了备份冗余。所以解决方案就是

解除所有绑定到Node00的计算节点。
1 如果遇到device is busy 就kill对应进程，直到能够解绑
shell sudo fuser-m-k/home/ubuntu/san/
在管理节点运行使用fsck对文件系统进行扫描修复
重启绑定

这样就完成了存储崩溃的处理