AI đang học cách 'suy nghĩ' từng bước khi nhìn ảnh, và đây là bước đột phá từ Alibaba

Các mô hình AI thị giác thường mắc lỗi nhỏ khi phân tích hình ảnh, và những lỗi này tích tụ qua nhiều bước suy luận, dẫn đến câu trả lời sai. Nhóm Qwen của Alibaba đã tạo ra HopChain, một khung huấn luyện buộc AI phải kiểm tra từng bước, cải thiện 20 trên 24 bài kiểm tra tiêu chuẩn.

Vấn đề cốt lõi không phải là AI không nhìn thấy, mà là chúng không biết cách kiểm tra lại những gì mình đã thấy khi suy luận phức tạp. Một lỗi nhỏ ở bước đầu có thể khiến toàn bộ kết luận sau đó đi sai hướng.

Tại sao AI 'ngã ngựa' khi suy luận nhiều bước?

Các mô hình thị giác ngôn ngữ (VLMs) như GPT-4V hay Qwen-VL có thể trả lời xuất sắc các câu hỏi đơn giản về hình ảnh. Tuy nhiên, chúng thường thất bại thảm hại trước những tác vụ đòi hỏi sự chú ý thị giác liên tục và suy luận logic qua nhiều giai đoạn.

Lý do nằm ở bản chất của quá trình xử lý. Khi được yêu cầu đưa ra câu trả lời dài với các bước suy luận trung gian (chain-of-thought), đủ loại lỗi bắt đầu xuất hiện.

Một lỗi nhỏ ở bước đầu tiên sẽ kéo theo một chuỗi lập luận sai lầm ở các bước sau. Kết quả cuối cùng nghe có vẻ rất thuyết phục và logic, nhưng lại hoàn toàn không chính xác.

Ví dụ, mô hình có thể đếm sai số đốm trên lưng bọ rùa, hiểu nhầm hướng di chuyển của xe trong ảnh, hoặc chỉ sai mũi tên trong biểu đồ thiên văn. Dữ liệu huấn luyện hiện có cho các phương pháp tiên tiến như Củng cố Học tập với Phần thưởng Có thể Xác minh (RLVR) lại hầu như không bao gồm các nhiệm vụ đòi hỏi sự tập trung thị giác xuyên suốt nhiều bước như vậy.

AI thiếu một 'sân chơi' được thiết kế đặc biệt để rèn luyện kỹ năng suy luận tuần tự chính xác và kiểm tra chéo thông tin.

HopChain: Giải pháp buộc AI phải 'nhìn kỹ' từng bước

Thay vì vá từng lỗi cụ thể, nhóm nghiên cứu từ Alibaba và Đại học Thanh Hoa đã xây dựng HopChain - một khung huấn luyện mới với triết lý cốt lõi: tự động tạo ra những câu hỏi hình ảnh nhiều tầng, buộc mô hình phải quay lại xem xét hình ảnh ở mỗi bước suy luận.

HopChain xây dựng hai loại liên kết thông minh trong các câu hỏi:

  • Luân phiên nhiệm vụ: Các bước xen kẽ giữa nhận diện đối tượng đơn lẻ (đọc chữ, xác định màu) và so sánh nhiều đối tượng (tỷ lệ kích thước, sắp xếp không gian).
  • Chuỗi phụ thuộc: Mỗi câu hỏi tuân theo một chuỗi phụ thuộc giữa các đối tượng. Để tìm đối tượng tiếp theo, AI bắt buộc phải dựa trên những đối tượng đã xác định ở bước trước.

Mỗi câu hỏi kết thúc bằng một con số duy nhất đóng vai trò đáp án tự động kiểm chứng.

60.000 - 80.000Ví dụ huấn luyện được tạo ra cho mỗi mô hình thông qua quy trình 4 bước nghiêm ngặt của HopChain.

Quy trình tạo dữ liệu: Kết hợp sức mạnh AI và con người

Việc tạo bộ dữ liệu huấn luyện chất lượng cao là then chốt. HopChain thực hiện qua bốn giai đoạn chặt chẽ:

  1. Nhận diện đối tượng: Mô hình Qwen3-VL-235B của Alibaba xác định các danh mục đối tượng trong ảnh.
  2. Phân đoạn: Mô hình SAM3 của Meta xác định vị trí từng thể hiện cụ thể của các đối tượng đó.
  3. Xây dựng câu hỏi: Mô hình ngôn ngữ xây dựng câu hỏi nhiều tầng xoay quanh 3-6 đối tượng.
  4. Kiểm chứng của con người: Bốn người chú giải giải mỗi câu hỏi độc lập. Chỉ những câu hỏi cả bốn người đồng ý về đáp án mới được chọn.

Những câu hỏi quá dễ cũng bị loại bỏ, đảm bảo bộ dữ liệu thực sự thách thức khả năng của AI.

Kết quả thử nghiệm: Cải thiện mạnh mẽ và khả năng tổng quát hóa

Các nhà nghiên cứu huấn luyện hai mô hình Qwen3.5 với phương pháp này và so sánh hiệu suất trên 24 bài kiểm tra thuộc bốn hạng mục: STEM/câu đố, hiểu hình ảnh tổng quát, nhận diện văn bản và hiểu video.

20/24Số bài kiểm tra được cải thiện khi bổ sung dữ liệu HopChain, cho cả mô hình cỡ nhỏ và cỡ lớn.

Mô hình nhỏ hơn (Qwen3.5-35B) thấy điểm EMMA tăng từ 53 lên 58. Mô hình lớn hơn (Qwen3.5-397B) cải thiện điểm BabyVision từ 28.61 lên 32.22, và điểm ZeroBench tăng gấp đôi từ 4 lên 8.

Điểm đáng chú ý là các câu hỏi HopChain không hề được tùy chỉnh cho bất kỳ bài kiểm tra cụ thể nào. Sự cải thiện trên diện rộng này là bằng chứng mạnh mẽ cho thấy khả năng tổng quát hóa thực sự của phương pháp.

Một phát hiện bất ngờ khác: dù dữ liệu huấn luyện hoàn toàn dựa trên ảnh tĩnh, cả hai mô hình cũng cải thiện trên năm trong số sáu bài kiểm tra về video. Điều này cho thấy kỹ năng suy luận tuần tự mà HopChain dạy có thể chuyển giao sang các tác vụ động.

Điểm Chính Cần Nhớ

  • AI thị giác thường sai trong suy luận nhiều bước do lỗi nhỏ tích tụ.
  • HopChain tạo câu hỏi buộc AI xem xét lại hình ảnh ở mỗi bước, với chuỗi phụ thuộc giữa các đối tượng.
  • Phương pháp cải thiện 20/24 bài kiểm tra, kể cả trên video, chứng tỏ khả năng tổng quát hóa cao.
  • Quy trình tạo dữ liệu kết hợp AI mạnh và kiểm soát chất lượng nghiêm ngặt của con người.

Điều này có nghĩa gì với bạn?

Sự ra đời của HopChain không chỉ là một tiến bộ học thuật. Nó mang lại những hàm ý thiết thực cho tương lai của AI và cách chúng ta tương tác với công nghệ này.

Với người dùng và doanh nghiệp: Bạn có thể kỳ vọng vào những trợ lý AI thông minh hơn, cẩn thận hơn và đáng tin cậy hơn. Hãy hình dung một hệ thống AI trong nhà máy có thể phân tích một bức ảnh chụp dây chuyền lắp ráp, không chỉ mô tả các bộ phận mà còn suy luận nguyên nhân tắc nghẽn dựa trên vị trí và trạng thái của từng linh kiện, sau đó đề xuất giải pháp khắc phục từng bước. Trong lĩnh vực chăm sóc sức khỏe, các công cụ hỗ trợ chẩn đoán hình ảnh có thể trở nên tinh vi hơn, giúp bác sĩ phân tích phim chụp bằng cách chỉ ra và liên kết các dấu hiệu bất thường một cách có hệ thống, giảm thiểu nguy cơ bỏ sót chi tiết quan trọng.

Với nhà phát triển và nghiên cứu AI: HopChain đặt ra một tiêu chuẩn mới về chất lượng dữ liệu huấn luyện. Nó chứng minh rằng để xây dựng AI thực sự có khả năng 'tư duy', chúng ta cần những bộ dữ liệu được thiết kế có chủ đích để rèn luyện quá trình suy nghĩ, chứ không chỉ đơn thuần là ghi nhớ kết quả. Phương pháp lai giữa tự động hóa (AI tạo câu hỏi) và kiểm duyệt của con người cũng là một hình mẫu đáng để các dự án AI khác học tập và áp dụng.

Tóm lại, HopChain của Alibaba không chỉ đang sửa một lỗ hổng kỹ thuật. Nó đang giúp AI tiến gần hơn đến việc sở hữu một dạng 'tư duy có phương pháp' - khả năng phân tích cẩn thận, kiểm tra lại thông tin và đưa ra các quyết định phức tạp một cách đáng tin cậy dựa trên thế giới trực quan. Đây là một bước đi quan trọng trên hành trình biến AI từ một công cụ phản hồi nhanh thành một đối tác hỗ trợ đáng tin cậy trong giải quyết vấn đề.