Lỗ hổng bảo mật mới cho phép hacker chiếm toàn bộ máy chủ chỉ qua card GPU Nvidia

Một loại tấn công tưởng chừng chỉ tồn tại trong sách giáo khoa bảo mật vừa được nâng cấp lên tầm nguy hiểm mới: hacker có thể chiếm toàn quyền kiểm soát một máy chủ đang chạy GPU Nvidia chỉ bằng cách khai thác điểm yếu vật lý của chip nhớ. Hai nhóm nghiên cứu làm việc hoàn toàn độc lập đã công bố kết quả vào cùng một ngày, khiến cộng đồng bảo mật toàn cầu phải chú ý.

Rowhammer là gì và tại sao nó nguy hiểm?

Hãy tưởng tượng bộ nhớ máy tính như một tờ giấy kẻ ô, mỗi ô chứa số 0 hoặc số 1. Rowhammer là kỹ thuật tấn công trong đó kẻ xấu liên tục truy cập một hàng ô nhất định với tốc độ cực nhanh — "đập búa" vào nó — đến mức gây ra nhiễu điện từ làm lật ngược các bit ở hàng bên cạnh. Số 0 thành số 1, số 1 thành số 0.

Kỹ thuật này đã được biết đến từ hơn một thập kỷ trước, chủ yếu nhắm vào bộ nhớ RAM thông thường của CPU. Các nhà sản xuất đã dần bổ sung biện pháp bảo vệ. Nhưng GPU lại là câu chuyện khác.

Rowhammer không phải lỗi phần mềm — đây là điểm yếu vật lý của chip nhớ. Không thể vá bằng một bản cập nhật phần mềm đơn giản, và phần cứng cũ không thể thay đổi cấu trúc vật lý sau khi đã sản xuất.

Từ CPU sang GPU: Bước nhảy nguy hiểm

Trước đây, giới nghiên cứu đã thử nghiệm Rowhammer trên bộ nhớ GDDR của GPU Nvidia và chỉ đạt được 8 lần lật bit — quá ít để gây hại nghiêm trọng, chỉ đủ làm méo kết quả của một mô hình AI đang chạy.

Lần này khác hoàn toàn. Nhóm nghiên cứu đứng sau GDDRHammer (viết tắt vừa có nghĩa là "Graphics DDR" vừa là "Greatly Disturbing DRAM Rows") đã đạt trung bình 129 lần lật bit trên mỗi bank bộ nhớ — tăng gấp 64 lần so với kết quả tốt nhất trước đó.

64xMức tăng hiệu quả tấn công so với nghiên cứu trước đó — từ 8 lên 129 lần lật bit trên mỗi bank bộ nhớ GPU

Quan trọng hơn, đây không chỉ là phá hoại dữ liệu. Nhóm nghiên cứu đã dùng kỹ thuật này để phá vỡ cơ chế cách ly bộ nhớ của GPU, từ đó leo thang đặc quyền và giành quyền đọc-ghi toàn bộ bộ nhớ CPU của máy chủ. Kết quả: chiếm quyền kiểm soát hoàn toàn hệ thống.

"Công trình của chúng tôi cho thấy Rowhammer — vốn đã được nghiên cứu kỹ trên CPU — là mối đe dọa nghiêm trọng không kém trên GPU." — Andrew Kwong, đồng tác giả nghiên cứu GDDRHammer

Tại sao môi trường đám mây là mục tiêu lý tưởng?

Một card GPU hiệu suất cao thường có giá từ 8.000 USD trở lên. Vì chi phí quá lớn, các nhà cung cấp dịch vụ đám mây thường cho hàng chục người dùng khác nhau chia sẻ cùng một card GPU. Đây chính là điều khiến cuộc tấn công này trở nên cực kỳ đáng lo ngại.

Một người dùng bình thường thuê dịch vụ GPU cloud — để huấn luyện mô hình AI, render đồ họa, hay chạy ứng dụng — có thể lợi dụng lỗ hổng này để xâm nhập vào dữ liệu của những người dùng khác đang chia sẻ cùng phần cứng, thậm chí chiếm quyền kiểm soát toàn bộ máy chủ vật lý.

Tại sao GPU cloud lại đặc biệt nguy hiểm?

Không giống CPU server thông thường, GPU đắt tiền đến mức buộc các nhà cung cấp phải cho nhiều khách hàng dùng chung. Điều này tạo ra bề mặt tấn công lớn hơn nhiều — một người dùng xấu có thể trả vài chục đô la thuê GPU và tấn công toàn bộ máy chủ đang phục vụ hàng chục khách hàng khác.

Điều kiện để tấn công thành công

Có một điểm quan trọng cần lưu ý: cuộc tấn công chỉ hoạt động khi tính năng quản lý bộ nhớ IOMMU bị tắt — và đây là cài đặt mặc định trong BIOS của nhiều hệ thống. Điều này có nghĩa là phần lớn máy chủ GPU hiện tại đang ở trạng thái dễ bị tấn công nếu không được cấu hình đúng cách.

Cuộc tấn công GDDRHammer được thử nghiệm thành công trên RTX 6000 thế hệ Ampere của Nvidia. Các card thuộc thế hệ Ada mới hơn chưa bị ảnh hưởng vì dùng loại GDDR khác mà nhóm nghiên cứu chưa phân tích ngược hoàn toàn.

IOMMU bị tắt theo mặc định trong BIOS của nhiều hệ thống máy chủ. Quản trị viên hệ thống cần kiểm tra và bật tính năng này để giảm thiểu nguy cơ bị tấn công theo phương thức này.

Tại sao các biện pháp bảo vệ hiện tại không đủ?

Đây là phần đáng lo ngại nhất. Trong nhiều năm qua, ngành công nghiệp đã xây dựng một hệ thống phòng thủ khá vững chắc chống lại Rowhammer trên CPU — cả ở cấp phần mềm lẫn phần cứng. Nhưng theo nhóm nghiên cứu, tất cả những biện pháp đó đều vô dụng nếu kẻ tấn công chuyển hướng sang GPU.

Nói cách khác, bảo vệ CPU mà không bảo vệ GPU là như khóa cửa trước nhưng để cửa sổ mở toang. Kẻ tấn công chỉ cần đi đường vòng.

Điều này có nghĩa gì với bạn?

Nếu bạn đang dùng các dịch vụ AI đám mây — từ việc chạy mô hình ngôn ngữ, xử lý ảnh, đến huấn luyện AI — dữ liệu của bạn có thể đang nằm trên cùng một máy chủ GPU với người dùng khác. Lỗ hổng này cho thấy ranh giới cách ly đó mỏng manh hơn chúng ta nghĩ.

Với người dùng cá nhân, rủi ro trực tiếp còn thấp vì tấn công này đòi hỏi quyền truy cập vật lý hoặc tài khoản trên cùng hệ thống. Nhưng với các doanh nghiệp Việt Nam đang thuê dịch vụ GPU cloud để chạy AI, đây là tín hiệu để hỏi nhà cung cấp dịch vụ rằng họ có bật IOMMU và các biện pháp cách ly phần cứng hay không. Các nhà cung cấp dịch vụ đám mây lớn nhiều khả năng sẽ phải vá lỗi này trong thời gian tới.

Nếu doanh nghiệp bạn đang dùng dịch vụ GPU cloud, hãy hỏi nhà cung cấp về chính sách cách ly phần cứng (hardware isolation) và liệu IOMMU có được bật trên các máy chủ GPU của họ không. Đây là câu hỏi hoàn toàn hợp lý về bảo mật.

Điểm chính cần nhớ

Hai nhóm nghiên cứu độc lập chứng minh có thể chiếm toàn quyền máy chủ GPU Nvidia qua lỗ hổng phần cứng Rowhammer
Hiệu quả tấn công tăng 64 lần so với nghiên cứu trước, đủ để kiểm soát hoàn toàn bộ nhớ CPU từ GPU
Môi trường GPU cloud — nơi nhiều người dùng chia sẻ cùng card GPU — là mục tiêu nguy hiểm nhất
Tấn công chỉ hoạt động khi IOMMU bị tắt, vốn là cài đặt mặc định trên nhiều hệ thống
Các biện pháp bảo vệ Rowhammer hiện tại trên CPU hoàn toàn không ngăn được tấn công qua GPU