Startup AI tí hon hiếm hoi tiết lộ đang có lãi hàng trăm triệu USD mỗi năm, 2 founder thành tỷ phú đôla ở tuổi 30

Khác phần lớn công ty AI, ElevenLabs đang có lãi: Forbes ước tính lãi ròng 116 triệu USD 12 tháng qua (biên lợi nhuận tương đương 60%).

Các bộ phim lồng tiếng ở Ba Lan thật tệ. Một người “lektor” đọc toàn bộ lời thoại bằng giọng đơn điệu, mệt mỏi. Không có dàn diễn viên. Không đổi giọng giữa các nhân vật. Giới trẻ ghét kiểu này. “Hỏi bất kỳ người Ba Lan nào họ cũng sẽ nói là khủng khiếp”, Mateusz (Mati) Staniszewski, đồng sáng lập startup giọng nói AI ElevenLabs nói.

Khi còn làm ở Palantir, Staniszewski bắt tay với bạn học cấp ba kiêm kỹ sư Google, Piotr Dabkowski, để thử nghiệm trí tuệ nhân tạo. Họ nhận ra một dự án, một “huấn luyện viên thuyết trình” bằng AI đầy hứa hẹn có thể giải cứu nỗi ám ảnh rất “Ba Lan”: Leonardo DiCaprio hay Scarlett Johansson bị át bởi một “ngôi sao lektor” như Maciej Gudowski.

Hai người gom tiền tiết kiệm và đến tháng 5/2022 thì nghỉ việc toàn thời gian để xây ElevenLabs. Ngay từ đầu, trình tạo giọng nói từ văn bản của họ đã vượt xa các giọng máy kiểu robot của Siri (Apple) hay Alexa (Amazon). Giọng AI của ElevenLabs thể hiện được vui vẻ, hào hứng, thậm chí biết… cười.

Tháng 1/2023, ElevenLabs ra mắt mô hình đầu tiên: Có thể đọc to bất kỳ văn bản nào bằng bất kỳ giọng nào, bao gồm cả giọng “clone” của chính bạn (và, đáng lo là, của cả người khác). Nhu cầu đến tức thì. Tác giả có thể tạo sách nói chỉ trong chớp mắt (gói pro giờ từ 99 USD/tháng cho chất lượng cao và thời lượng nhiều hơn). YouTuber dùng ElevenLabs để dịch video sang ngôn ngữ khác (mô hình hiện nói được 29 thứ tiếng).

Startup đặt trụ sở tại Warsaw và London này ký được các hợp đồng với app học ngôn ngữ, thiền; rồi tới các nhà xuất bản như HarperCollins và tập đoàn truyền thông Đức Bertelsmann. “Rõ ràng đó là mô hình tốt nhất và ai cũng chọn ngay”, nhà đầu tư Jennifer Li (Andreessen Horowitz) nói. Quỹ này đã đồng dẫn đầu vòng gọi vốn trị giá 19 triệu USD vào tháng 5/2023. Một năm sau, hai nhà đồng sáng lập vào danh sách Forbes 30 Under 30 châu Âu.

Dù vẫn còn nhiều tranh cãi, như việc nhiều tội phạm lợi dụng công cụ của ElevenLabs để giả giọng nói, lừa đào nhưng tất cả vẫn không ngăn được dòng vốn mạo hiểm đổ vào startup này. ElevenLabs đã huy động trên 300 triệu USD, vọt lên định giá 6,6 tỷ USD vào tháng 10, trở thành một trong những startup giá trị nhất châu Âu. Staniszewski, 30 tuổi, giữ vai trò CEO (công ty không dùng chức danh truyền thống), và Dabkowski, 30 tuổi, phụ trách nghiên cứu, nay đều là tỷ phú với tài sản hơn 1 tỷ USD mỗi người (theo ước tính của Forbes).

Khoảng một nửa trong 193 triệu USD doanh thu 12 tháng gần nhất đến từ khách hàng doanh nghiệp như Cisco, Twilio và hãng tuyển dụng Thụy Sĩ Adecco. Những công ty này dùng công nghệ của ElevenLabs để nhận cuộc gọi chăm sóc khách hàng hoặc phỏng vấn ứng viên.

Epic Games dùng ElevenLabs để lồng tiếng nhân vật trong Fortnite, kể cả các đoạn hội thoại với Darth Vader (có sự đồng ý của gia đình cố nghệ sĩ James Earl Jones). Nửa còn lại đến từ YouTuber, podcaster và tác giả, là những người dùng sớm. “Nói chuyện với đội ngũ của họ mới thấy họ giỏi đến phát choáng”, nhà phân tích Tom Coshow (Gartner) nhận xét. Khác phần lớn công ty AI, ElevenLabs đang có lãi: Forbes ước tính lãi ròng 116 triệu USD 12 tháng qua (biên lợi nhuận tương đương 60%).

Giờ họ cạnh tranh với các “ông lớn” như Google, Microsoft, Amazon và OpenAI để trở thành “giọng nói mặc định” của AI. Lĩnh vực này không mới: Cách đây khoảng một thập kỷ, các hãng công nghệ đã làm sản phẩm nghe, chuyển lời nói thành văn bản và tạo giọng nói. Dù chỉ là “nhánh phụ”, Microsoft cũng chi 20 tỷ USD mua Nuance (dịch vụ chuyển giọng nói thành văn bản) tháng 3/2022. OpenAI tung công cụ Voice cho ChatGPT vào tháng 10/2024.

Nhưng đội ngũ 300 người của ElevenLabs không phải đang chạy theo. Mô hình của họ đủ tốt để thu phí cao gấp đến ba lần so với đối thủ Mỹ. Thư viện 10.000 giọng “người” đáng kinh ngạc của họ là lớn nhất, nay có cả Michael Caine và Matthew McConaughey. Độ tin cậy cũng cao hơn.

Labelbox (startup dữ liệu huấn luyện) thử sáu mô hình giọng hàng đầu bằng một “bài đọc” và thấy ElevenLabs mắc lỗi chỉ bằng một nửa OpenAI, đối thủ sát nút nhất. “Chúng tôi là số ít hiếm hoi đang vượt OpenAI, không chỉ text-to-speech, mà cả speech-to-text và nhạc”, Staniszewski nói.

Công thức của ElevenLabs rất đơn giản: Một nhóm nhỏ nhà nghiên cứu máy học, ám ảnh giải một bài toán hẹp, với ngân sách chặt (hai đồng sáng lập tự bỏ 100.000 USD cho lần huấn luyện đầu).

Tuy vậy, một vụ kiện từ hai diễn viên đọc sách nói hé lộ “nguyên liệu” khác. Karissa Vacker và Mark Boyett cáo buộc ElevenLabs dùng hàng nghìn audiobook có bản quyền để huấn luyện mô hình. Họ nói nhiều sách của mình bị quét đến mức phiên bản clone giọng của họ xuất hiện như tùy chọn mặc định trên ElevenLabs. Công ty phủ nhận sai phạm và vụ việc đã dàn xếp ngoài tòa vào tháng 11.

Sự “trưởng thành” đang đến. Công ty cuối cùng đã lập danh sách “giọng cấm” (chủ yếu là chính trị gia, người nổi tiếng). ElevenLabs hiện có bảy kiểm duyệt viên toàn thời gian (cộng thêm AI) rà soát lạm dụng. Mọi giọng clone mới phải vượt qua bước xác nhận đồng ý, và công ty cung cấp miễn phí công cụ phát hiện deepfake.

Staniszewski và Dabkowski còn nhắm vượt xa giọng nói. Cả người sáng tạo eo ngân sách lẫn các hãng media cần nhạc nền không bản quyền, họ đã ra mắt trình tạo nhạc AI vào tháng 8. Với những người không có thời gian quay video? Năm tới, ElevenLabs sẽ có avatar AI để “đóng” video kiểu Sora.

Startup này đang đặt cược một ván bài lớn nhất: Chuyển chuyên môn của mình thành một trung tâm duy nhất giúp khách hàng quản trị mọi công cụ AI. “Chúng tôi đang xây một nền tảng cho phép bạn tạo ‘voice agent’ và triển khai mượt mà”, Staniszewski nói.

Dĩ nhiên, điều đó đặt ElevenLabs vào đường đua với cả rừng startup cũng nhắm mục tiêu ấy. Lợi thế là họ có lãi từ sớm, nhưng đối thủ cũng rủng rỉnh vốn, còn các đại gia thì tài nguyên gần như vô hạn. Và họ buộc phải liên tục đổi mới: Mô hình giọng sớm muộn cũng sẽ bị “hàng hóa hóa”. Khi mô hình khác bắt kịp, khách hàng, vốn đã chê giá ElevenLabs cao có thể quay xe.

Khi mở rộng vượt giọng nói sang nhạc và video, hai mảng ngốn tính toán hơn, ElevenLabs phải tăng công suất GPU của chính mình để không tụt lại. Họ đã chi 50 triệu USD cho một trung tâm dữ liệu ở Oregon. “Muốn thành công ty thế hệ mới trong AI, bạn phải xây quy mô. Và chúng tôi đang xây”, Staniszewski nói.

Theo: Forbes

Link nội dung: https://businessinvestmentvn.com/startup-ai-ti-hon-hiem-hoi-tiet-lo-dang-co-lai-hang-tram-trieu-usd-moi-nam-2-founder-thanh-ty-phu-dola-o-tuoi-30-a287450.html