Meta ra mắt TRIBE v2: Mô hình AI dự đoán phản ứng não bộ từ video, âm thanh và văn bản

Đội ngũ FAIR của Meta vừa chính thức ra mắt TRIBE v2, một mô hình nền tảng đa phương thức (tri-modal) mang tính đột phá trong lĩnh vực khoa học thần kinh tính toán (in-silico neuroscience). Mô hình này được thiết kế để dự đoán phản ứng của não bộ, được ghi lại qua hình ảnh cộng hưởng từ chức năng (fMRI) độ phân giải cao, khi tiếp nhận các kích thích từ video, âm thanh và văn bản trong điều kiện tự nhiên. Đây được xem là bước tiến quan trọng hướng tới một khuôn khổ thống nhất để hiểu cách bộ não con người tích hợp thông tin đa giác quan.

Kiến trúc đa phương thức của TRIBE v2

Thay vì học từ đầu, TRIBE v2 tận dụng sự liên kết biểu diễn giữa các mạng nơ-ron sâu và bộ não linh trưởng. Kiến trúc của nó bao gồm ba mô hình nền tảng đã được đóng băng (frozen foundation models) đóng vai trò bộ mã hóa chuyên biệt:

Văn bản: Sử dụng mô hình ngôn ngữ lớn để trích xuất embedding ngữ cảnh.
Thị giác: Sử dụng bộ mã hóa video để xử lý các phân đoạn 64 khung hình.
Thính giác: Sử dụng bộ mã hóa âm thanh, với các biểu diễn được lấy mẫu lại để phù hợp.

Các embedding này sau đó được nén vào một không gian chung và kết hợp để tạo thành chuỗi thời gian đa phương thức. Một khối Transformer sau đó trao đổi thông tin xuyên suốt cửa sổ 100 giây. Để dự đoán hoạt động não, đầu ra của Transformer được ánh xạ tới 20.484 đỉnh vỏ não thông qua một khối dự đoán đặc thù cho từng đối tượng.

Đào tạo trên dữ liệu "sâu" và đánh giá trên dữ liệu "rộng"

Một thách thức lớn trong mã hóa não là sự khan hiếm dữ liệu. TRIBE v2 giải quyết vấn đề này bằng cách sử dụng các bộ dữ liệu "sâu" (deep) để đào tạo - nơi một vài đối tượng được ghi hình trong nhiều giờ - và các bộ dữ liệu "rộng" (wide) để đánh giá.

Mô hình được đào tạo trên 451.6 giờ dữ liệu fMRI từ 25 đối tượng qua bốn nghiên cứu tự nhiên (phim, podcast, video im lặng).
Nó được đánh giá trên một bộ sưu tập rộng hơn, tổng cộng 1.117.7 giờ từ 720 đối tượng.

Nhóm nghiên cứu quan sát thấy độ chính xác mã hóa tăng theo quy luật log-tuyến tính khi khối lượng dữ liệu đào tạo tăng lên, mà không có dấu hiệu chững lại. Điều này cho thấy khi các kho lưu trữ hình ảnh thần kinh mở rộng, sức mạnh dự đoán của các mô hình như TRIBE v2 sẽ tiếp tục được nhân rộng.

Khả năng Zero-Shot và hiệu suất nhóm ấn tượng

Một trong những khả năng nổi bật nhất của mô hình là khả năng tổng quát hóa (zero-shot) cho các đối tượng mới. Bằng cách sử dụng một lớp 'đối tượng chưa từng thấy', TRIBE v2 có thể dự đoán phản ứng trung bình nhóm của một nhóm đối tượng mới chính xác hơn cả bản ghi thực tế của nhiều cá nhân trong nhóm đó. Trong bộ dữ liệu độ phân giải cao Human Connectome Project (HCP) 7T, TRIBE v2 đạt hệ số tương quan nhóm gần 0.4, một cải thiện gấp đôi so với khả năng dự đoán nhóm trung vị của từng đối tượng.

Khi được cung cấp một lượng dữ liệu nhỏ (tối đa một giờ) cho một người tham gia mới, việc tinh chỉnh (fine-tuning) TRIBE v2 chỉ trong một kỷ nguyên (epoch) dẫn đến cải thiện gấp 2 đến 4 lần so với các mô hình tuyến tính được đào tạo từ đầu.

Ứng dụng tiềm năng: Thí nghiệm ảo và sàng lọc trước

Nhóm nghiên cứu lập luận rằng TRIBE v2 có thể hữu ích cho việc thí điểm hoặc sàng lọc trước các nghiên cứu hình ảnh thần kinh. Bằng cách chạy các thí nghiệm ảo trên cơ sở dữ liệu Individual Brain Charting (IBC), mô hình đã khôi phục chính xác các mốc chức năng kinh điển của não:

Nó định vị chính xác vùng mặt fusiform (FFA) và vùng vị trí parahippocampal (PPA).
Nó khôi phục thành công vùng chẩm thái dương (TPJ) và vùng chuyển động hMT+.
Phân tích thành phần độc lập (ICA) trên lớp cuối cùng của mô hình tiết lộ rằng TRIBE v2 tự nhiên học được năm mạng chức năng nổi tiếng: thính giác nguyên phát, ngôn ngữ, chuyển động, mạng mặc định và mạng trực quan cấp cao.

Góc nhìn

Việc Meta công bố TRIBE v2 đánh dấu một bước tiến đáng kể trong việc áp dụng AI để giải mã hoạt động phức tạp của não bộ. Mô hình này không chỉ là công cụ nghiên cứu mạnh mẽ cho các nhà khoa học thần kinh toàn cầu, mà còn mở ra tiềm năng ứng dụng trong y học cá nhân hóa và phát triển giao diện não-máy tính tại Việt Nam. Khả năng chạy 'thí nghiệm ảo' có thể giúp giảm đáng kể chi phí và rủi ro trong nghiên cứu lâm sàng, đồng thời đẩy nhanh tốc độ khám phá các nguyên lý cơ bản của nhận thức con người.

Meta ra mắt TRIBE v2: Mô hình AI dự đoán phản ứng não bộ từ video, âm thanh và văn bản

Kiến trúc đa phương thức của TRIBE v2

Đào tạo trên dữ liệu "sâu" và đánh giá trên dữ liệu "rộng"

Khả năng Zero-Shot và hiệu suất nhóm ấn tượng

Ứng dụng tiềm năng: Thí nghiệm ảo và sàng lọc trước

Góc nhìn

Broadcom và OpenAI: Chip AI tùy chỉnh gặp khó vì Microsoft?

OpenAI và Liên Minh Công Nghệ Ra Mắt Giao Thức Mạng MRC Mới

Ngăn chặn AI cố tình kém cỏi khi đánh giá an toàn: Khám phá đột phá

Nắm bắt AI trong 5 phút mỗi sáng