Cựu lãnh đạo Facebook xây hệ thống kiểm duyệt AI mới — chính xác hơn cả con người

Một cựu lãnh đạo Facebook vừa gọi vốn 12 triệu USD để giải quyết bài toán kiểm duyệt nội dung mà ông từng chứng kiến tận mắt — và lần này, ông muốn làm đúng từ đầu. Công ty của ông, Moonbounce, không chỉ kiểm duyệt nội dung người dùng đăng tải mà còn kiểm soát cả những gì AI tạo ra theo thời gian thực.

Khi kiểm duyệt nội dung chỉ đúng hơn tung đồng xu một chút

Brett Levenson từng rời Apple năm 2019 để dẫn dắt bộ phận bảo mật kinh doanh tại Facebook, đúng lúc mạng xã hội này đang chìm trong khủng hoảng nội dung. Ông nghĩ công nghệ tốt hơn sẽ giải quyết được vấn đề. Nhưng thực tế phũ phàng hơn nhiều.

Các nhân viên kiểm duyệt phải học thuộc một tài liệu chính sách dài 40 trang đã được dịch máy sang ngôn ngữ của họ. Với mỗi nội dung bị gắn cờ, họ chỉ có khoảng 30 giây để quyết định: có vi phạm không, và nếu có thì xử lý thế nào — xóa bài, cấm tài khoản, hay hạn chế phát tán.

50%Độ chính xác của kiểm duyệt thủ công — gần như tương đương tung đồng xu

Kết quả? Độ chính xác chỉ hơn 50% một chút — gần như tương đương tung đồng xu. Và tệ hơn nữa, quyết định đó thường đến nhiều ngày sau khi nội dung độc hại đã lan rộng.

"Gần như là tung đồng xu xem người kiểm duyệt có xử lý đúng chính sách không, và điều đó xảy ra nhiều ngày sau khi thiệt hại đã xảy ra rồi." — Brett Levenson, nhà sáng lập Moonbounce

Ý tưởng biến chính sách thành mã lệnh

Sự thất vọng đó dẫn Levenson đến khái niệm "policy as code" — tức là biến các văn bản chính sách tĩnh thành logic có thể thực thi và cập nhật liên tục, gắn chặt với hành động xử lý.

Moonbounce được thành lập từ ý tưởng đó. Công ty đã tự huấn luyện một mô hình ngôn ngữ lớn riêng, có khả năng đọc hiểu tài liệu chính sách của khách hàng, đánh giá nội dung ngay lúc phát sinh, và đưa ra phản hồi trong vòng 300 mili giây — nhanh hơn một cái chớp mắt.

Cách Moonbounce hoạt động: Hệ thống đọc tài liệu chính sách của khách hàng, đánh giá nội dung theo thời gian thực, rồi tự động làm chậm phân phối hoặc chặn ngay nội dung rủi ro cao — tất cả trong vòng 300 mili giây.

Vòng gọi vốn 12 triệu USD và những khách hàng đầu tiên

Moonbounce vừa công bố hoàn tất vòng gọi vốn 12 triệu USD, đồng dẫn dắt bởi Amplify Partners và StepStone Group.

Những con số ấn tượng của Moonbounce

Hơn 40 triệu lượt kiểm duyệt được xử lý mỗi ngày
Phục vụ hơn 100 triệu người dùng hoạt động hàng ngày
Phản hồi trong 300 mili giây hoặc ít hơn
Vòng gọi vốn 12 triệu USD từ Amplify Partners và StepStone Group

Các khách hàng hiện tại bao gồm startup AI đồng hành Channel AI, nền tảng tạo ảnh và video Civitai, cùng các ứng dụng nhập vai nhân vật Dippy AI và Moescape. Moonbounce tập trung vào ba nhóm khách hàng chính: nền tảng nội dung do người dùng tạo ra như ứng dụng hẹn hò, các công ty AI đang xây dựng nhân vật ảo hoặc AI đồng hành, và các công cụ tạo ảnh bằng AI.

Tại sao đây là vấn đề cấp bách hơn bao giờ hết

Sự bùng nổ của chatbot AI đã khiến bài toán kiểm duyệt nội dung trở nên phức tạp gấp bội. Không chỉ là nội dung người dùng đăng lên nữa — bản thân AI cũng có thể tạo ra nội dung gây hại, và điều đó đã dẫn đến nhiều sự cố nghiêm trọng trên toàn cầu.

Rủi ro đang tăng lên: Các sự cố chatbot cung cấp thông tin nguy hiểm cho trẻ vị thành niên đã xảy ra tại nhiều nền tảng lớn. Khi AI được tích hợp vào mọi ứng dụng, lỗ hổng kiểm duyệt không còn là vấn đề của riêng mạng xã hội nữa.

"An toàn thực sự có thể là lợi ích sản phẩm. Nó chưa bao giờ được như vậy vì nó luôn là thứ xảy ra sau, không phải thứ bạn có thể xây vào sản phẩm ngay từ đầu." — Brett Levenson

Điều này có nghĩa gì với bạn?

Nếu bạn đang dùng các ứng dụng AI đồng hành, công cụ tạo ảnh AI, hay bất kỳ nền tảng nào cho phép tương tác với AI — bạn đang đứng trước rủi ro từ nội dung không được kiểm soát. Những sự cố chatbot tư vấn sai cho trẻ em hay tạo ra nội dung độc hại không còn là chuyện xa lạ.

Sự xuất hiện của các công ty như Moonbounce cho thấy ngành công nghiệp đang dần nhận ra rằng tốc độ phát triển AI cần đi kèm với lớp bảo vệ tương xứng. Với người dùng Việt Nam đang ngày càng tiếp cận nhiều ứng dụng AI quốc tế, việc các nền tảng này triển khai hệ thống kiểm duyệt thời gian thực sẽ trực tiếp ảnh hưởng đến trải nghiệm và sự an toàn của bạn khi sử dụng.

Lời khuyên thực tế: Khi chọn dùng ứng dụng AI — đặc biệt là AI đồng hành hay công cụ tạo ảnh — hãy ưu tiên các nền tảng công khai chính sách an toàn nội dung rõ ràng. Đó là dấu hiệu cho thấy họ đang đầu tư nghiêm túc vào bảo vệ người dùng.

Những điểm chính cần nhớ

Kiểm duyệt nội dung thủ công tại Facebook từng chỉ đạt độ chính xác hơn 50% — và mất nhiều ngày mới xử lý xong
Moonbounce biến tài liệu chính sách thành hệ thống tự động, phản hồi trong 300 mili giây
Công ty vừa gọi vốn 12 triệu USD, đang xử lý 40 triệu lượt kiểm duyệt mỗi ngày
Khi AI tạo ra nội dung, kiểm duyệt không còn chỉ là vấn đề của mạng xã hội — mọi ứng dụng AI đều cần lớp bảo vệ này
Người dùng Việt Nam nên chú ý đến chính sách an toàn nội dung khi chọn ứng dụng AI để dùng

Cựu lãnh đạo Facebook xây hệ thống kiểm duyệt AI mới — chính xác hơn cả con người

Khi kiểm duyệt nội dung chỉ đúng hơn tung đồng xu một chút

Ý tưởng biến chính sách thành mã lệnh

Vòng gọi vốn 12 triệu USD và những khách hàng đầu tiên

Những con số ấn tượng của Moonbounce

Tại sao đây là vấn đề cấp bách hơn bao giờ hết

Điều này có nghĩa gì với bạn?

Những điểm chính cần nhớ

AI Giờ Chỉ Cần Nhắn Tin: Poke Biến Trợ Lý Ảo Thành Thói Quen Hàng Ngày

Deepseek Gần Đạt Định Giá 45 Tỷ USD: Quỹ Chip Trung Quốc Dẫn Đầu

Vapi AI Giọng Nói Đạt Định Giá 500 Triệu USD Nhờ Amazon Ring

Nắm bắt AI trong 5 phút mỗi sáng