Netflix Công Bố AI Xóa Vật Thể Khỏi Video: Đàn Guitar Tự Rơi Khi Người Chơi Biến Mất
Chỉnh sửa video vẫn luôn giấu một bí mật khó nói: việc xóa một vật thể ra khỏi khung hình thì dễ, nhưng khiến cho cảnh quay trông như thể nó chưa từng tồn tại lại cực kỳ khó khăn. Giờ đây, đội ngũ AI của Netflix đã mở mã nguồn một mô hình có thể làm được điều đó, cùng với việc hiểu cả các định luật vật lý.
VOID không chỉ xóa pixel của vật thể, mà còn hiểu và xóa luôn cả tương tác vật lý mà nó gây ra, như khiến một vật bị giữ sẽ rơi xuống một cách tự nhiên.
Vấn đề mà VOID thực sự giải quyết
Các công cụ xóa vật thể video thông thường hoạt động như những "họa sĩ vẽ nền" tinh vi. Chúng lấp đầy khoảng trống bằng nội dung phù hợp về mặt hình ảnh, nhưng hoàn toàn mù tịt trước logic vật lý. Kết quả là những cảnh tượng phi lý: một cây đàn guitar lơ lửng trên không, một quả bóng dính chặt vào không khí sau khi người ném biến mất.
Nếu một người đang cầm guitar bị xóa, VOID cũng sẽ xóa luôn tác động của người đó lên cây đàn — khiến nó rơi xuống một cách tự nhiên. Mô hình phải hiểu rằng cây đàn đang được giữ, và việc xóa người đó đồng nghĩa với việc trọng lực sẽ chiếm ưu thế.
VOID (Video Object and Interaction Deletion) được xây dựng để giải quyết chính điểm yếu chí mạng này. Thay vì chỉ hỏi "tôi nên lấp đầy pixel nào?", nó đặt câu hỏi "điều gì là hợp lý về mặt vật lý sau khi vật thể này biến mất?".
Bộ não của VOID: CogVideoX và Quadmask thông minh
VOID được xây dựng dựa trên CogVideoX, một mô hình tạo video 3D Transformer mạnh mẽ từ Alibaba, và được tinh chỉnh đặc biệt cho nhiệm vụ mới. Tuy nhiên, linh hồn thực sự của nó nằm ở khái niệm "quadmask".
Khác với mask nhị phân thông thường (xóa/giữ), quadmask là một bản đồ ngữ nghĩa 4 lớp, hướng dẫn AI phân biệt rõ ràng giữa vật thể cần xóa, vùng bị ảnh hưởng bởi tương tác, và phần nền cần giữ nguyên.
Trong quadmask, mỗi pixel được gán một trong bốn giá trị:
- 0 - Vật thể chính: Pixel thuộc về vật thể sẽ bị xóa.
- 1 - Vùng chồng lấp: Khu vực giao nhau giữa vật thể chính và các vật thể bị ảnh hưởng.
- 2 - Vùng bị ảnh hưởng: Các vật thể sẽ thay đổi trạng thái (rơi, lăn, dịch chuyển) do vật thể chính biến mất.
- 3 - Nền: Phần cảnh sẽ được giữ nguyên hoàn toàn.
Cách tiếp cận có cấu trúc này cho phép VOID xử lý một cách tinh tế, thay vì xóa mọi thứ một cách thô bạo.
Hai lượt xử lý cho độ mượt mà hoàn hảo
VOID hoạt động qua một hoặc hai lượt (pass) xử lý để đảm bảo chất lượng:
- Lượt 1 (Pass 1): Đây là mô hình inpainting cơ bản, đủ để xử lý phần lớn video với độ chính xác cao.
- Lượt 2 (Pass 2 - Tùy chọn): Được thiết kế như một "cơ chế ổn định". Khi mô hình phát hiện hiện tượng "biến dạng vật thể" (object morphing) - một lỗi phổ biến khi vật thể tổng hợp bị méo mó qua các khung hình - lượt 2 sẽ sử dụng kỹ thuật "optical flow" để điều chỉnh và ổn định hình dạng vật thể, đảm bảo chuyển động mượt mà và tự nhiên.
Huấn luyện AI hiểu vật lý: Bí quyết nằm ở dữ liệu
Làm thế nào để dạy một mô hình AI hiểu về trọng lực và tương tác? Câu trả lời nằm ở dữ liệu huấn luyện được tạo ra một cách khéo léo. Nhóm nghiên cứu đã sử dụng các công cụ mô phỏng vật lý và kết xuất 3D để tạo ra hàng loạt cảnh video tổng hợp. Trong những cảnh này, họ có toàn quyền kiểm soát: họ có thể "bật/tắt" một vật thể và ghi lại chính xác hệ quả vật lý xảy ra (ví dụ: một khối gỗ đổ xuống khi cột chống biến mất).
Bằng cách học từ những cặp video "có/không có" vật thể tương tác này, VOID dần học được các mối quan hệ nhân quả cơ bản trong thế giới thực, thay vì chỉ học cách sao chép hình ảnh.
Điểm Chính Cần Nhớ
- VOID là mô hình AI đầu tiên xóa vật thể cùng với tất cả tương tác vật lý của nó, không chỉ hình ảnh.
- Bí mật nằm ở "quadmask", một bản đồ hướng dẫn AI phân biệt rõ vật thể cần xóa và các vật thể bị ảnh hưởng.
- Mô hình được huấn luyện trên dữ liệu tổng hợp để hiểu được quan hệ nhân quả vật lý, như "vật bị giữ sẽ rơi nếu điểm tựa biến mất".
- Việc Netflix mở mã nguồn VOID có thể đẩy nhanh việc tích hợp công nghệ này vào các phần mềm chỉnh sửa phổ thông.
Điều này có nghĩa gì với bạn?
Sự xuất hiện của VOID không chỉ là tin vui cho các studio Hollywood. Nó mang lại tác động thiết thực và lâu dài đến nhiều đối tượng:
Cho người sáng tạo nội dung số: Từ YouTuber, TikToker đến các nhà làm phim độc lập, công cụ này hứa hẹn cách mạng hóa quy trình hậu kỳ. Việc "dọn dẹp" cảnh quay - xóa những vật thể không mong muốn, sửa lỗi quay phim - sẽ trở nên nhanh chóng, dễ dàng và cho kết quả chuyên nghiệp hơn bao giờ hết, mà không cần kỹ năng VFX bậc cao.
Cho ngành sản xuất video chuyên nghiệp: Chi phí và thời gian sản xuất sẽ được tối ưu đáng kể. Các đạo diễn có thể thoải mái thử nghiệm ý tưởng trong hậu kỳ, loại bỏ đạo cụ thử nghiệm hoặc thay đổi bối cảnh mà không cần tổ chức quay lại tốn kém. Điều này mở ra không gian sáng tạo rộng lớn hơn.
Cho sự phát triển của AI nói chung: VOID đánh dấu một bước tiến quan trọng trong việc phát triển AI có khả năng "lý luận thông thường" (common sense reasoning) về thế giới vật lý. Thành công của nó cung cấp một lộ trình cho việc xây dựng các hệ thống AI thông minh hơn, không chỉ trong xử lý video mà còn trong robot, xe tự hành và nhiều lĩnh vực khác đòi hỏi hiểu biết về môi trường.
Tóm lại, VOID không chỉ đơn thuần là một công cụ chỉnh sửa mới. Nó là một tín hiệu cho thấy rào cản giữa hiệu ứng hình ảnh đắt tiền và công cụ sáng tạo dành cho đại chúng đang dần bị xóa nhòa. Tương lai nơi mọi người đều có thể tạo ra những thước phim hoàn hảo một cách dễ dàng có lẽ đã không còn xa.