博客
关于如何解决 BMC 的问题
在您的集群管理工具中,您可能注意到您的一个系统在远程管理时没有响应,GUI 没有获取系统上的 vital,或者使用 IPMI 的远程命令失败或超时。那可能是服务器的 BMC 有问题。
BMC(Baseboard Management Control)是支持远程访问的重要主板组件。几乎在所有现代服务器和一些工作站主板上都可以找到它,它的功能至关重要,尤其是在当今严重依赖远程访问计算机的情况下。
如果您在服务器远程管理功能方面遇到困难,我们将在文章中引导您完成诊断和解决 BMC 连接或功能问题的步骤。
BMC 或基板管理控制器是一种微处理器,能够控制整个较大的系统。即使在系统断电的情况下,它在远程系统管理和监控中也起着至关重要的作用。它允许远程访问系统,包括电源控制、硬件监控和带外访问。
没有 BMC,集群管理系统,远程访问服务器是不可能的!否则您必须亲自前往数据中心,连接显示器/外围设备来操作服务器。确保其正常功能对于高效的服务器管理和维护显的格外重要。
通过执行这些故障排除步骤,您可以验证 BMC 是否是服务器上的问题。如果服务器位于您的局域网上,或者您可以直接通过 SSH 连接到它,则有一些方法可以绕过此问题。但是,如果这些选项在您的配置中未处于活动状态,那将不得不去到机房访问服务器。
如果您是从联泰集群购买的系统,并且在尝试这些步骤后问题仍然存在,请咨询我们的技术支持团队以获得进一步帮助,400-100-3811。
在开始故障排除之前,检查 BMC 测试状态至关重要。有两种主要方法可以实现这一点:
-
BIOS 方法:访问系统的 BIOS 设置,并导航到 BMC 配置或运行状况部分。在这里,您可以验证 BMC 的测试状态,并识别任何报告的问题或错误。
-
ipmitool 命令:要获得更技术的方法,请在终端中使用以下命令收集 BMC 信息,并使用 bashipmitool lan print 命令检查错误或状态更新,该命令提供了有关 BMC 当前状态的详细信息。
如果 BMC 测试显示负面结果,如错误或连接问题,请按照以下步骤执行电源重启并检查事件日志,以潜在地解决问题。
如果 BMC 仍然没有响应,请联系您的服务器供应商以探索进一步的修复方法。如果您是从联泰集群购买的系统,我们非常乐意为您提供帮助。
电源循环以重置 BMC
重启系统通常可以解决大多数 BMC 问题,并且可以安全地自动执行。
-
完全关闭系统电源。
-
从电源设备(PSU)上断开所有交流电源。
-
按住系统上的电源按钮 10 秒,以耗尽任何剩余电量。
-
重新连接交流电源前,请至少等待 1-2 分钟。
-
重新连接电源设备并重新启动系统。
-
重新启动后,进入 BIOS 并重新测试 BMC 功能,以检查问题是否仍然存在。
检查系统事件日志
在同一菜单中,您查看了 BMC 状态,有一个系统事件日志。
-
用键盘向下浏览,然后选择系统事件日志。
-
查看与 BMC 相关的所有错误消息。
-
如果该选项可用,请导出或清除日志,查看重新启动后是否出现新错误。
-
与您的服务器供应商共享这些错误代码中的任何一个,以评估接下来的步骤。
-
如果没有出现新的错误,执行电源重启应该可以解决问题。
解决 BMC 问题对于让服务器按预期运行至关重要。如果没有远程管理,服务器将被降级为机架中的美化工作站,这是不应该的。如果您在 BMC 方面遇到问题,请首先联系您的硬件供应商,以便他们可以处理重新刷新固件或 RMA 操作您的系统。
在联泰集群,我们致力于提供高性能计算解决方案,这些解决方案是经过验证和测试的系统。如果您对解决计算基础架构中的硬件问题有任何疑问,请与我们的技术支持团队联系,与我们联泰集群的工程师一同规划下一个算力方案决策。