ElevenLabs wprowadza na rynek własny model zamiany mowy na tekst

ElevenLabs , startup AI, który właśnie zebrał 180 milionów dolarów w rundzie finansowania , jest znany przede wszystkim ze swoich osiągnięć w generowaniu dźwięku. Firma zrobiła krok w innym kierunku technologicznym, wprowadzając swój pierwszy samodzielny model zamiany mowy na tekst o nazwie Scribe.
Startup, wyceniany na 3,3 miliarda dolarów , pomógł wielu innym firmom w świadczeniu usług zamiany mowy na tekst za pośrednictwem swojej ogromnej biblioteki głosów. Jednak firma chce teraz wejść w wykrywanie mowy i konkurować z takimi firmami jak Gladia , Speechmatics , AssemblyAI , Deepgram i modelami Whisper firmy OpenAI.
Model Scribe firmy ElevenLabs obsługuje ponad 99 języków w momencie uruchomienia. Firma klasyfikuje ponad 25 języków w kategorii doskonałej dokładności dla modelu, w którym wskaźnik błędów słownych wynosi mniej niż 5%. Ta lista obejmuje angielski (deklarowany wskaźnik dokładności 97%), francuski, niemiecki, hindi, indonezyjski, japoński, kannada, malajalam, polski, portugalski, hiszpański i wietnamski. Inne języki są klasyfikowane w różnych kategoriach z wysokim (5-10% wskaźnik błędów słownych), dobrym (10 do 20% wskaźnik błędów słownych) i umiarkowanym (25 do 50%) wskaźnikiem błędów słownych.
Firma poinformowała, że w testach porównawczych FLEURS i Common Voice model ten uzyskał lepsze wyniki w wielu językach niż Google Gemini 2.0 Flash i Whisper Large V3.

ElevenLabs opracowało komponent speech-to-text dla swojej platformy AI conversational agent, która została wydana w zeszłym roku. Jednak jest to pierwszy raz, kiedy firma wydaje samodzielny model wykrywania mowy . W rozmowie z TechCrunch w zeszłym miesiącu, CEO Mati Staniszewski mówił o ulepszaniu modeli wykrywania mowy.
„Chcemy lepiej zrozumieć, co mówisz w rozmowie. Pracujemy nad sposobami odejścia od generowania treści i rozumienia i transkrypcji mowy” – powiedział wówczas Staniszewski. „Wiele osób twierdzi, że zamiana mowy na tekst jest rozwiązanym problemem. Ale w przypadku wielu języków jest to dość złe. Uważamy, że możemy budować lepsze modele wykrywania mowy, ponieważ mamy wewnętrzne zespoły, które opisują dane i szybko przekazują nam informacje zwrotne”.
Model ten ma również inteligentny system diaryzacji głośników, który informuje, kto mówi, znacznik czasu na poziomie słowa dla dokładnych napisów i automatyczne tagowanie zdarzeń dźwiękowych, takich jak śmiech publiczności. Startup zapewnia klientom sposób na bezpośrednie transkrybowanie treści wideo w celu dodawania napisów lub podpisów w swoim studiu.
Scribe obecnie działa tylko z wstępnie nagranymi formatami audio. Firma poinformowała, że wkrótce wyda wersję modelu w czasie rzeczywistym o niskim opóźnieniu. Oznacza to, że nie jest on jeszcze skuteczny w przypadku transkrypcji spotkań lub robienia notatek głosowych.
ElevenLabs wycenia Scribe na 0,40 USD za godzinę transkrybowanego audio. Choć stawka jest konkurencyjna, niektórzy z jego rywali oferują obecnie niższą cenę za transkrypcje audio z pewnym zróżnicowaniem funkcji.
techcrunch