英伟达 RTX 5090 和 RTX PRO 6000 显卡被曝虚拟化故障,云服务商悬赏 1000 美元解决问题

时间:2025-09-08 16:18:01来源:互联网

下面小编就为大家分享一篇英伟达 RTX 5090 和 RTX PRO 6000 显卡被曝虚拟化故障,云服务商悬赏 1000 美元解决问题,具有很好的参考价值,希望对大家有所帮助。

alixixi 9 月 8 日消息,GPU 计算云服务提供商 CloudRift 在上个月发布公告,GeForce RTX 5090 和 RTX PRO 6000 已被证实存在可复现的虚拟化故障,导致显卡无法使用,直到整个系统重新上电,将悬赏 1000 美元(alixixi注:现汇率约合 7128 元人民币)解决这个问题。

CloudRift 表示,在一些配备 RTX 5090 和 RTX PRO 6000 显卡的节点上,这些显卡偶尔会完全无响应 —— 通常在使用虚拟机几天后,或在启动 / 关闭过程中看似随机的时间点。一旦发生这种情况,显卡就无法重新分配。唯一的解决办法是重启整个节点。

CloudRift 已经排除了大多数常见问题:IOMMU 的 quirks、内核版本、驱动绑定以及 libvirt 的配置错误。该公司的 H100s、B200s 和较旧的 RTX 4090 都在运行稳定,但这些较新的 RTX 显卡给他们带来了大麻烦。

据 Tom's Hardware 昨日报道,Proxmox 论坛和 Level1Techs 上的用户也报告了类似的问题。在其中一个案例中,Windows 虚拟机关闭后系统挂起,即使操作系统重启后 GPU 也无法重新初始化。另一位用户描述了 Linux 虚拟机关闭时 FLR 超时后主机 CPU 软锁,切换 PCIe ASPM 或 ACS 设置等尝试未能解决问题。

CloudRift 正提供 1000 美元(现汇率约合 7128 元人民币)的悬赏,用于确认的缓解措施或修复方案。如果找不到直接修复方法,奖励将给予任何帮助揭示根本原因或提供可复现测试的人。

目前,英伟达尚未就重置故障发表任何声明,该故障似乎仅限于基于 Blackwell 的显卡。一位受影响的用户表示,英伟达已经意识到这个问题,并且能够复现它。

本站部分内容转载自互联网,如果有网站内容侵犯了您的权益,可直接联系我们删除,感谢支持!