ElevenLabs lancia il suo modello di conversione da parlato a testo

ElevenLabs , una startup di intelligenza artificiale che ha appena raccolto un mega round di finanziamenti da 180 milioni di dollari , è nota principalmente per la sua abilità nella generazione audio. L'azienda ha compiuto un passo in un'altra direzione tecnologica lanciando il suo primo modello autonomo di conversione da parlato a testo chiamato Scribe.
La startup, valutata 3,3 miliardi di $ , ha aiutato molte altre aziende a fornire servizi di conversione da voce a testo attraverso la sua vasta libreria di voci. Tuttavia, l'azienda sta ora cercando di entrare nel rilevamento vocale e competere con aziende come Gladia , Speechmatics , AssemblyAI , Deepgram e i modelli Whisper di OpenAI.
Il modello Scribe di ElevenLabs supporta oltre 99 lingue al momento del lancio. L'azienda classifica oltre 25 lingue nella categoria di accuratezza eccellente per il modello in cui il tasso di errore delle parole è inferiore al 5%. Questo elenco include inglese (tasso di accuratezza dichiarato del 97%), francese, tedesco, hindi, indonesiano, giapponese, kannada, malayalam, polacco, portoghese, spagnolo e vietnamita. Altre lingue sono classificate in categorie diverse con tassi di errore delle parole elevati (tasso di errore delle parole del 5-10%), buoni (tasso di errore delle parole del 10-20%) e moderati (tasso di errore delle parole del 25-50%).
L'azienda ha affermato che il modello ha superato le prestazioni di Google Gemini 2.0 Flash e Whisper Large V3 in numerose lingue nei test di benchmark FLEURS e Common Voice.

ElevenLabs ha sviluppato il componente speech-to-text per la sua piattaforma AI conversational agent, che è stata rilasciata l'anno scorso. Tuttavia, questa è la prima volta che l'azienda rilascia un modello di rilevamento vocale autonomo . In una conversazione con TechCrunch il mese scorso, il CEO Mati Staniszewski ha parlato del miglioramento dei modelli di rilevamento vocale.
"Vogliamo capire meglio cosa viene detto da te in una conversazione. Stiamo lavorando su modi per allontanarci dalla sola generazione di contenuti e dalla comprensione e trascrizione del parlato", ha detto Staniszewski in quel momento. "Molte persone dicono che la conversione del parlato in testo è un problema risolto. Ma per molte lingue è piuttosto negativo. Pensiamo di poter creare modelli di rilevamento del parlato migliori perché abbiamo team interni per annotare i dati e darci un feedback rapido".
Il modello ha anche la diarizzazione smart speaker per dirti chi sta parlando, timestamp a livello di parola per sottotitoli accurati e tag automatico di eventi sonori come le risate del pubblico. La startup fornisce ai clienti un modo per trascrivere direttamente i contenuti video per aggiungere sottotitoli o didascalie nel suo studio.
Scribe al momento funziona solo con formati audio preregistrati. L'azienda ha affermato che presto rilascerà una versione in tempo reale a bassa latenza del modello. Ciò significa che non è ancora efficace per le trascrizioni di riunioni o per prendere appunti vocali.
ElevenLabs sta fissando il prezzo di Scribe a $ 0,40 per un'ora di audio trascritto. Sebbene la tariffa sia competitiva, alcuni dei suoi rivali offrono un prezzo inferiore per le trascrizioni audio al momento, con alcune differenziazioni di funzionalità.
techcrunch