ElevenLabs wprowadza na rynek własny model zamiany mowy na tekst

ElevenLabs , startup AI, który właśnie zebrał 180 milionów dolarów w rundzie finansowania , jest znany przede wszystkim ze swoich osiągnięć w generowaniu dźwięku. Firma zrobiła krok w innym kierunku technologicznym, wprowadzając swój pierwszy samodzielny model zamiany mowy na tekst o nazwie Scribe.

Startup, wyceniany na 3,3 miliarda dolarów , pomógł wielu innym firmom w świadczeniu usług zamiany mowy na tekst za pośrednictwem swojej ogromnej biblioteki głosów. Jednak firma chce teraz wejść w wykrywanie mowy i konkurować z takimi firmami jak Gladia , Speechmatics , AssemblyAI , Deepgram i modelami Whisper firmy OpenAI.

Model Scribe firmy ElevenLabs obsługuje ponad 99 języków w momencie uruchomienia. Firma klasyfikuje ponad 25 języków w kategorii doskonałej dokładności dla modelu, w którym wskaźnik błędów słownych wynosi mniej niż 5%. Ta lista obejmuje angielski (deklarowany wskaźnik dokładności 97%), francuski, niemiecki, hindi, indonezyjski, japoński, kannada, malajalam, polski, portugalski, hiszpański i wietnamski. Inne języki są klasyfikowane w różnych kategoriach z wysokim (5-10% wskaźnik błędów słownych), dobrym (10 do 20% wskaźnik błędów słownych) i umiarkowanym (25 do 50%) wskaźnikiem błędów słownych.

Firma poinformowała, że w testach porównawczych FLEURS i Common Voice model ten uzyskał lepsze wyniki w wielu językach niż Google Gemini 2.0 Flash i Whisper Large V3.

ElevenLabs opracowało komponent speech-to-text dla swojej platformy AI conversational agent, która została wydana w zeszłym roku. Jednak jest to pierwszy raz, kiedy firma wydaje samodzielny model wykrywania mowy . W rozmowie z TechCrunch w zeszłym miesiącu, CEO Mati Staniszewski mówił o ulepszaniu modeli wykrywania mowy.

„Chcemy lepiej zrozumieć, co mówisz w rozmowie. Pracujemy nad sposobami odejścia od generowania treści i rozumienia i transkrypcji mowy” – powiedział wówczas Staniszewski. „Wiele osób twierdzi, że zamiana mowy na tekst jest rozwiązanym problemem. Ale w przypadku wielu języków jest to dość złe. Uważamy, że możemy budować lepsze modele wykrywania mowy, ponieważ mamy wewnętrzne zespoły, które opisują dane i szybko przekazują nam informacje zwrotne”.

Model ten ma również inteligentny system diaryzacji głośników, który informuje, kto mówi, znacznik czasu na poziomie słowa dla dokładnych napisów i automatyczne tagowanie zdarzeń dźwiękowych, takich jak śmiech publiczności. Startup zapewnia klientom sposób na bezpośrednie transkrybowanie treści wideo w celu dodawania napisów lub podpisów w swoim studiu.

Scribe obecnie działa tylko z wstępnie nagranymi formatami audio. Firma poinformowała, że wkrótce wyda wersję modelu w czasie rzeczywistym o niskim opóźnieniu. Oznacza to, że nie jest on jeszcze skuteczny w przypadku transkrypcji spotkań lub robienia notatek głosowych.

ElevenLabs wycenia Scribe na 0,40 USD za godzinę transkrybowanego audio. Choć stawka jest konkurencyjna, niektórzy z jego rywali oferują obecnie niższą cenę za transkrypcje audio z pewnym zróżnicowaniem funkcji.

techcrunch

ElevenLabs wprowadza na rynek własny model zamiany mowy na tekst

Firma poinformowała, że w testach porównawczych FLEURS i Common Voice model ten uzyskał lepsze wyniki w wielu językach niż Google Gemini 2.0 Flash i Whisper Large V3.

techcrunch

ElevenLabs wprowadza na rynek własny model zamiany mowy na tekst

Podobne wiadomości

ElevenLabs wprowadza na rynek własny model zamiany mowy na tekst

Podobne wiadomości

Instacart odnotowuje największy spadek w historii po rozczarowujących przychodach i kiepskich prognozach

Roboty dostawcze Avride'a lądują w Japonii

Pixel Watch 3 otrzymuje zgodę FDA na utratę wykrywania pulsu

Riot wycofuje niepopularne zmiany w League of Legends

Te alternatywy dla popularnych aplikacji mogą pomóc Ci odzyskać życie online spod kontroli miliarderów i inwigilacji