Công ty AI doanh nghiệp Cohere đã chính thức ra mắt Transcribe, mô hình chuyển giọng nói thành văn bản (ASR) mã nguồn mở đầu tiên của họ. Với thiết kế tối ưu cho việc tự triển khai và hỗ trợ đa ngôn ngữ, sản phẩm này hứa hẹn mang lại giải pháp chuyển đổi giọng nói chất lượng cao cho cả doanh nghiệp và cá nhân.

Transcribe: Mô hình ASR mã nguồn mở đa ngôn ngữ

Transcribe được thiết kế với kiến trúc nhẹ, chỉ 2 tỷ tham số, cho phép chạy trên các GPU phổ thông dành cho người tiêu dùng. Điều này mở ra khả năng tự triển khai (self-host) cho các tổ chức và cá nhân muốn kiểm soát dữ liệu và tùy chỉnh hệ thống. Mô hình hiện hỗ trợ 14 ngôn ngữ, bao gồm tiếng Anh, Pháp, Đức, Ý, Tây Ban Nha, Bồ Đào Nha, Hy Lạp, Hà Lan, Ba Lan, Trung Quốc, Nhật Bản, Hàn Quốc, tiếng Việt và Ả Rập.

Hiệu suất vượt trội trên bảng xếp hạng

Theo đánh giá trên Hugging Face Open ASR leaderboard, Transcribe đã vượt qua nhiều đối thủ như Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 và Qwen3-ASR-1.7B Speech. Mô hình đạt tỷ lệ lỗi từ trung bình (WER) chỉ 5.42, thấp hơn bất kỳ mô hình nào khác trong cùng bảng xếp hạng. Cohere tuyên bố Transcribe có tỷ lệ chiến thắng trung bình 61% so với các mô hình khác khi được đánh giá bởi con người về độ chính xác, tính mạch lạc và khả năng sử dụng.

Hạn chế và khả năng xử lý

Mặc dù có hiệu suất tổng thể ấn tượng, Transcribe vẫn bộc lộ một số hạn chế khi chuyển đổi các ngôn ngữ cụ thể. Mô hình hoạt động kém hơn đối thủ khi xử lý tiếng Bồ Đào Nha, Đức và Tây Ban Nha. Tuy nhiên, về tốc độ xử lý, Transcribe có thể xử lý 525 phút âm thanh trong một phút, một con số cao đối với phân khúc mô hình này.

Chiến lược tích hợp và phân phối

Cohere có kế hoạch tích hợp Transcribe vào nền tảng điều phối tác nhân doanh nghiệp Command R+ của họ. Mô hình sẽ được cung cấp miễn phí thông qua Hugging FaceGitHub, đồng thời cũng có sẵn trên Cohere Platform - nền tảng suy luận được quản lý của công ty. Động thái này phù hợp với xu hướng ngày càng tăng của các mô hình nhận dạng giọng nói, được thúc đẩy bởi nhu cầu về ứng dụng ghi chú và đọc chính tả.

Góc nhìn thị trường Việt Nam

Việc Transcribe hỗ trợ tiếng Việt ngay từ đầu là tín hiệu tích cực cho thị trường AI tại Việt Nam. Với khả năng tự triển khai trên phần cứng phổ thông, các doanh nghiệp vừa và nhỏ, startup công nghệ, hay thậm chí cá nhân có thể tiếp cận công nghệ chuyển giọng nói thành văn bản chất lượng cao mà không cần đầu tư lớn vào cơ sở hạ tầng. Điều này có thể thúc đẩy phát triển các ứng dụng ghi chú thông minh, hệ thống hỗ trợ khách hàng bằng giọng nói, hay công cụ phân tích hội thoại phù hợp với đặc thù ngôn ngữ và văn hóa Việt Nam.