Symbolica đạt 36% trên ARC-AGI-3, vượt xa GPT-5 và Claude Opus với chi phí thấp

Công ty khởi nghiệp Symbolica đã gây chú ý với thông báo Agentica SDK của họ đạt điểm số 36.08% trên bộ đánh giá ARC-AGI-3 - thử thách mới nhất đo lường khả năng trí tuệ nhân tạo tổng quát. Kết quả này vượt xa hiệu suất của các mô hình ngôn ngữ lớn hàng đầu hiện nay, đồng thời đạt được với chi phí tính toán thấp hơn đáng kể.

Thành tích ấn tượng trên ARC-AGI-3

Trong ngày đầu tiên tham gia thử thách ARC-AGI-3, Agentica SDK của Symbolica đã giải quyết thành công 113 trên 182 cấp độ có thể chơi được, tương đương 36.08% tổng số thử thách. Hệ thống này cũng hoàn thành 7 trong số 25 trò chơi có sẵn trong bộ đánh giá.

Điểm đáng chú ý là Agentica SDK thể hiện hiệu suất vượt trội so với các phương pháp tiếp cận Chain of Thought (CoT) truyền thống. Trong khi Claude Opus 4.6 Max chỉ đạt 0.2% và GPT-5.4 High đạt 0.3%, giải pháp của Symbolica đã vượt qua các baseline này với biên độ chênh lệch đáng kể.

Hiệu quả chi phí đột phá

Một trong những điểm nhấn quan trọng của thành tích này nằm ở hiệu quả chi phí. Theo số liệu công bố, Agentica SDK đạt điểm số 36.08% với chi phí chỉ 1.005 USD, trong khi để đạt được 0.25% điểm số với Claude Opus 4.6 cần tới 8.900 USD - chênh lệch gần 8 lần về hiệu quả đầu tư.

Symbolica đã phát triển SDK này như một nền tảng sandbox cho phép chạy các tác vụ liên tục, bao gồm giải quyết các câu đố ARC phức tạp. Cách tiếp cận này cho thấy tiềm năng của các hệ thống agent chuyên dụng so với các mô hình ngôn ngữ lớn đa dụng.

ARC-AGI-3: Thước đo mới cho trí tuệ agent

ARC-AGI-3 được xem là thử thách mới cho trí tuệ nhân tạo tổng quát ở cấp độ tiên phong. Bộ đánh giá này bao gồm nhiều cấp độ và trò chơi đa dạng, đòi hỏi khả năng suy luận, giải quyết vấn đề và thích ứng của AI.

Tuy nhiên, có sự khác biệt giữa thông tin API chính thức và thực tế triển khai. Trong khi API ARC-AGI-3 công bố mỗi trò chơi có 6 cấp độ, số lượng cấp độ thực tế trong các trò chơi tương ứng qua API lại không khớp với thông tin này.

Góc nhìn từ thị trường AI

Thành tích của Symbolica không chỉ là một con số ấn tượng mà còn mang ý nghĩa chiến lược trong cuộc đua phát triển AI agent. Trong bối cảnh các công ty lớn như OpenAI, Anthropic và Google liên tục cải thiện mô hình ngôn ngữ lớn, Symbolica chứng minh rằng các giải pháp chuyên biệt, tối ưu hóa cho các tác vụ cụ thể vẫn có thể tạo ra lợi thế cạnh tranh đáng kể.

Đối với thị trường Việt Nam và khu vực Đông Nam Á, nơi các startup AI thường phải đối mặt với thách thức về ngân sách và tài nguyên tính toán, cách tiếp cận hiệu quả về chi phí của Symbolica có thể trở thành bài học quý giá. Thành công này cho thấy không phải lúc nào cũng cần đến những mô hình khổng lồ với chi phí vận hành cao để đạt được kết quả ấn tượng trong các thử thách AI phức tạp.

Symbolica đạt 36% trên ARC-AGI-3, vượt xa GPT-5 và Claude Opus với chi phí thấp

Thành tích ấn tượng trên ARC-AGI-3

Hiệu quả chi phí đột phá

ARC-AGI-3: Thước đo mới cho trí tuệ agent

Góc nhìn từ thị trường AI

OpenAI và Liên Minh Công Nghệ Ra Mắt Giao Thức Mạng MRC Mới

Gemma 4 Cán Mốc 2 Triệu Tải Xuống: Làn Sóng AI Chạy Trên Thiết Bị Cá Nhân Đã Tới

OpenAI ra mắt ChatGPT Agent: Trợ lý AI thao tác máy tính toàn diện

Nắm bắt AI trong 5 phút mỗi sáng