Công ty trí tuệ nhân tạo Mistral của Pháp vừa chính thức ra mắt Voxtral TTS, một mô hình chuyển văn bản thành giọng nói (Text-to-Speech) mã nguồn mở mới. Động thái này đưa Mistral vào cuộc cạnh tranh trực tiếp với các đối thủ như ElevenLabs, Deepgram và OpenAI trong thị trường AI giọng nói đang bùng nổ.

Voxtral TTS: Nhỏ gọn, đa ngôn ngữ và chi phí thấp

Mô hình mới hỗ trợ tổng cộng 9 ngôn ngữ, bao gồm tiếng Anh, Pháp, Đức, Tây Ban Nha, Hà Lan, Bồ Đào Nha, Ý, Hindi và Ả Rập. Theo ông Pierre Stock, Phó Chủ tịch phụ trách hoạt động khoa học tại Mistral AI, Voxtral TTS được xây dựng để đáp ứng nhu cầu từ khách hàng về một mô hình giọng nói hiệu quả.

"Chúng tôi đã xây dựng một mô hình giọng nói có kích thước nhỏ, có thể chạy trên smartwatch, smartphone, laptop hoặc các thiết bị biên khác", ông Stock cho biết trong một cuộc phỏng vấn với TechCrunch. "Chi phí của nó chỉ bằng một phần nhỏ so với bất kỳ giải pháp nào khác trên thị trường, nhưng vẫn mang lại hiệu suất đẳng cấp."

Khả năng tùy biến và hiệu suất thời gian thực ấn tượng

Một trong những điểm nổi bật của Voxtral TTS là khả năng tạo giọng nói tùy chỉnh chỉ từ một mẫu âm thanh dưới 5 giây. Mô hình có thể nắm bắt các đặc điểm tinh tế như chất giọng địa phương nhẹ, ngữ điệu, cao độ và cả những điểm không đều trong dòng nói. Được xây dựng dựa trên nền tảng mã nguồn mở, mô hình còn có thể chuyển đổi ngôn ngữ dễ dàng mà không làm mất đặc điểm của giọng nói gốc, hữu ích cho các ứng dụng như lồng tiếng hoặc dịch thuật thời gian thực.

Về hiệu suất, Mistral tuyên bố Voxtral TTS được thiết kế cho các tác vụ thời gian thực. Thời gian phản hồi âm thanh đầu tiên (TTFA) chỉ 90ms đối với mẫu 10 giây (500 ký tự). Hệ số thời gian thực (RTF) đạt 6x, nghĩa là nó có thể tạo ra một đoạn clip dài 10 giây chỉ trong khoảng 1,6 giây.

Chiến lược toàn diện và định vị cạnh tranh

Đây không phải là bước đi đầu tiên của Mistral trong lĩnh vực xử lý âm thanh. Đầu năm nay, công ty đã ra mắt hai mô hình xử lý âm thanh khác, một cho xử lý hàng loạt lớn và một cho các trường hợp sử dụng thời gian thực với độ trễ thấp. Với Voxtral TTS, Mistral đang hướng tới việc cung cấp một bộ sản phẩm giọng nói hoàn chỉnh cho doanh nghiệp.

Ông Stock chia sẻ tầm nhìn: "Chúng tôi dự định xây dựng một nền tảng end-to-end có thể xử lý luồng đầu vào đa phương thức, bao gồm âm thanh, văn bản, hình ảnh và cả đầu ra. Lợi ích chính là bạn nhận được nhiều thông tin hơn với một hệ thống tác nhân end-to-end hỗ trợ âm thanh như một đầu vào hoặc đầu ra."

Định vị cạnh tranh chính của Mistral nằm ở tính chất mã nguồn mở và khả năng tùy chỉnh sâu. Điều này cho phép các doanh nghiệp điều chỉnh mô hình theo nhu cầu cụ thể của họ, một lợi thế so với các giải pháp độc quyền.

Góc nhìn

Việc Mistral ra mắt Voxtral TTS không chỉ làm nóng thêm cuộc đua trong lĩnh vực AI giọng nói, mà còn mở ra cơ hội mới cho thị trường Việt Nam. Với đặc tính mã nguồn mở, chi phí thấp và khả năng chạy trên thiết bị biên, các startup và doanh nghiệp công nghệ Việt có thể tiếp cận và tích hợp công nghệ tiên tiến này để phát triển các giải pháp trợ lý ảo, dịch vụ chăm sóc khách hàng tự động bằng giọng nói tiếng Việt tự nhiên hơn. Đây là bước tiến quan trọng trong việc dân chủ hóa công nghệ AI giọng nói, giúp các công ty vừa và nhỏ cũng có thể cạnh tranh trong kỷ nguyên số.