Giải quyết vấn đề cốt lõi: Sự ghép nối chặt chẽ

Các nhiệm vụ của tác nhân đa lượt thường liên quan đến việc tương tác lặp đi lặp lại với các môi trường bên ngoài như kho mã nguồn hoặc hệ điều hành. Nhiều framework hiện có thường nhúng trực tiếp việc kiểm soát quá trình triển khai (rollout) vào trong quy trình huấn luyện. Sự ghép nối chặt chẽ này dẫn đến hai hạn chế chính.

Điểm cốt lõi

ProRL Agent tách biệt hoàn toàn việc điều phối rollout khỏi vòng lặp huấn luyện chính, giải quyết điểm nghẽn về hiệu suất và tính linh hoạt trong phát triển AI agent.

Thứ nhất là xung đột về yêu cầu hệ thống: Quá trình rollout chủ yếu phụ thuộc vào I/O, đòi hỏi tạo sandbox, duy trì các phiên công cụ lâu dài và phối hợp không đồng bộ. Trong khi đó, quá trình huấn luyện lại là tác vụ nặng về GPU, tập trung vào các lượt truyền xuôi/truyền ngược và đồng bộ hóa gradient. Việc chạy cả hai trong một tiến trình gây ra nhiễu loạn và làm giảm hiệu quả sử dụng phần cứng.

Thứ hai là thiếu tính linh hoạt: Việc nhúng logic rollout vào trainer khiến việc di chuyển sang các backend huấn luyện khác nhau hoặc hỗ trợ môi trường runtime mới trở nên khó khăn, đòi hỏi phải triển khai lại toàn bộ pipeline thực thi.

Thiết kế hệ thống: Rollout như một dịch vụ

ProRL Agent hoạt động như một dịch vụ HTTP độc lập, quản lý toàn bộ vòng đời của quá trình rollout. Trainer RL chỉ tương tác với máy chủ thông qua một API, hoàn toàn không cần biết đến cơ sở hạ tầng rollout bên dưới.

Để tối đa hóa thông lượng, máy chủ điều phối rollout thông qua một pipeline không đồng bộ ba giai đoạn giống như một dây chuyền lắp ráp:

  • Giai đoạn Khởi tạo: Các worker khởi tạo sẽ tạo các container sandbox và cấu hình công cụ.
  • Giai đoạn Rollout: Các worker rollout điều khiển vòng lặp tác nhân đa lượt và thu thập các trajectory.
  • Giai đoạn Đánh giá: Các worker đánh giá sẽ chấm điểm kết quả so với dữ liệu thực tế để tạo ra tín hiệu phần thưởng (reward).

Bằng cách gán mỗi giai đoạn cho một nhóm worker độc lập, ProRL Agent cho phép các pha chồng chéo lên nhau trên các công việc khác nhau, ngăn chặn việc các đánh giá chậm (như chạy toàn bộ bộ test) làm tắc nghẽn toàn bộ quá trình rollout.

Tối ưu hóa cho HPC và công cụ

Hệ thống sử dụng Singularity cho cơ sở hạ tầng sandbox của mình. Khác với các nền tảng dựa trên Docker, Singularity cho phép thực thi không cần quyền root, một yêu cầu bắt buộc để triển khai trên các cụm HPC dùng chung được quản lý bởi Slurm.

ProRL Agent cũng bao gồm một số tối ưu hóa để giảm độ trễ thực thi công cụ, yếu tố thường chiếm phần lớn thời gian rollout tổng thể. Các cải tiến bao gồm thay thế terminal multiplexing dựa trên tmux bằng pseudo-terminal trực tiếp dựa trên pty, giúp giảm độ trễ lệnh shell từ 0.78 giây xuống còn 0.42 giây. Hệ thống cũng kết nối với các kernel liên tục thông qua API trong tiến trình thay vì các gateway mạng, loại bỏ chi phí mạng.

46% giảm độ trễ lệnh shell

Các tính năng nâng cao cho RL có thể mở rộng

Cơ sở hạ tầng này giới thiệu các cơ chế để cải thiện độ ổn định huấn luyện và hiệu suất sử dụng phần cứng. Máy chủ quản lý một nhóm các backend suy luận LLM (ví dụ: vLLM) bằng cách sử dụng một min-heap được khóa bởi số lượng phân công. Khi một nhiệm vụ được gán, tất cả các lệnh gọi tiếp theo trong nhiệm vụ đó sẽ được định tuyến đến cùng một backend, giúp giảm thời gian suy luận trên nhiều lượt của tác nhân.

Một tính năng đáng chú ý khác là Dynamic Sampling Policy Optimization (DAPO), giúp lọc ra các 'prompt không mang thông tin' (non-informative prompts) thường tạo ra phần thưởng đồng đều. DAPO sử dụng cơ chế bổ sung không đồng bộ để duy trì thông lượng tối đa, chấm dứt sớm các công việc dư thừa một khi đạt được số lượng prompt mang thông tin mục tiêu.

Kết quả thử nghiệm trên SWE-Bench

Hệ thống đã được xác thực bằng cách sử dụng các mô hình Qwen3 ở nhiều quy mô khác nhau. Kết quả cho thấy kiến trúc decoupled của ProRL Agent mang lại hiệu quả vượt trội về khả năng mở rộng và tận dụng tài nguyên so với các phương pháp tiếp cận truyền thống.

"Sự ra đời của ProRL Agent đánh dấu một bước tiến quan trọng trong việc huấn luyện các AI agent phức tạp, có khả năng tương tác đa lượt với thế giới thực."

Đối với thị trường Việt Nam, nơi nhu cầu về các giải pháp AI tự động hóa và tối ưu hóa quy trình đang tăng cao, một cơ sở hạ tầng như vậy có thể giúp giảm đáng kể rào cản kỹ thuật và chi phí tính toán. Các startup và nhóm nghiên cứu AI trong nước giờ đây có thể tiếp cận một công cụ mạnh mẽ để phát triển các agent thông minh cho các lĩnh vực như phát triển phần mềm tự động, hỗ trợ khách hàng phức tạp hay phân tích dữ liệu chuyên sâu, từ đó thúc đẩy sự đổi mới trong hệ sinh thái công nghệ địa phương.