援引博文介绍,Rowhammer 是一种硬件故障,可以通过软件方式触发,其原因在于显存颗粒距离过近。该攻击方式最初针对 DRAM,但实测也影响显存。
攻击者在获取足够的读写操作后,访问显存行,控制相邻数据位在 1 和 0 之间变换,从而改变显存中的信息,可能导致服务拒绝、数据损坏甚至权限提升等。
英伟达推荐用户启用系统级错误纠正码(ECC),通过添加冗余位来保持数据的完整性,纠正个位错误,以维护数据的可靠性和准确性。
在工作站和数据中心 GPU 中,VRAM 处理大量数据集和与 AI 工作负载相关的精确计算,必须启用 ECC 以防止关键错误。
NVIDIA 的安全通知指出,多伦多大学的研究人员展示了“针对未启用系统级 ECC 的 NVIDIA A6000 GPU 带有 GDDR6 内存的潜在 Rowhammer 攻击”,这些学者开发了一种名为 GPUHammer 的攻击方法,用于翻转 GPU 内存的位。
尽管与基于 CPU 的 DDR4 相比,GDDR6 的延迟更高、刷新速度更快,使得对 GDDR6 的攻击更加困难,但研究人员还是证明了在 GPU 内存银行上实施 Rowhammer 攻击是可能的。
英伟达表示,除了 RTX A6000 之外,推荐以下产品启用系统级 ECC:
数据中心 GPU:
Ampere 系列:A100、A40、A30、A16、A10、A2、A800
Ada 系列:L40S、L40、L4
Hopper 系列:H100、H200、GH200、H20、H800
Blackwell 系列:GB200、B200、B100
Turing 系列:T1000、T600、T400、T4
Volta 系列:Tesla V100、Tesla V100S
工作站 GPU:
Ampere RTX 系列:A6000、A5000、A4500、A4000、A2000、A1000、A400
Ada RTX 系列:6000、5000、4500、4000、4000 SFF、2000
Blackwell RTX PRO(最新工作站系列)
Turing RTX 系列:8000、6000、5000、4000
Volta 系列:Quadro GV100
嵌入式 / 工业 GPU:
Jetson AGX Orin Industrial IGX Orin
英伟达表示,像 Blackwell RTX 50 系列(GeForce)、Blackwell 数据中心 GB200、B200、B100 以及 Hopper 数据中心 H100、H200、H20 和 GH200 这样的新型 GPU,内置了芯片级 ECC 保护,无需用户干预。
相关教程
2025-05-13
2024-09-23
2024-03-23
2024-10-13
2023-10-07
2024-08-06
2023-10-23
2023-11-06
2023-12-04
2024-01-09
2025-07-12
2025-07-12
2025-07-12
2025-07-11
2025-07-10
2025-07-09
Copyright © 2009-2025 飞沙系统网 www.fs0745.com 版权声明