ElevenLabs lanza su propio modelo de voz a texto

ElevenLabs , una startup de inteligencia artificial que acaba de recaudar una mega ronda de financiación de 180 millones de dólares , es conocida principalmente por su capacidad para generar audio. La empresa dio un paso en otra dirección tecnológica al lanzar su primer modelo independiente de conversión de voz a texto llamado Scribe.
La startup, valorada en 3.300 millones de dólares , ha ayudado a muchas otras empresas a ofrecer servicios de conversión de voz a texto a través de su amplia biblioteca de voces. Sin embargo, la empresa ahora busca entrar en el sector de la detección de voz y competir con modelos como Gladia , Speechmatics , AssemblyAI , Deepgram y Whisper de OpenAI.
El modelo Scribe de ElevenLabs admite más de 99 idiomas en el momento del lanzamiento. La empresa clasifica más de 25 idiomas en la categoría de precisión excelente para el modelo donde la tasa de error de palabras es inferior al 5 %. Esta lista incluye inglés (tasa de precisión declarada del 97 %), francés, alemán, hindi, indonesio, japonés, canarés, malabar, polaco, portugués, español y vietnamita. Otros idiomas se clasifican en diferentes categorías con tasas de error de palabras altas (tasa de error de palabras del 5 al 10 %), buenas (tasa de error de palabras del 10 al 20 %) y moderadas (tasa de error de palabras del 25 al 50 %).
La compañía afirmó que el modelo superó a Google Gemini 2.0 Flash y Whisper Large V3 en varios idiomas en las pruebas comparativas FLEURS y Common Voice.

ElevenLabs había desarrollado el componente de conversión de voz a texto para su plataforma de agente conversacional de IA, que se lanzó el año pasado. Sin embargo, esta es la primera vez que la empresa lanza un modelo de detección de voz independiente . En una conversación con TechCrunch el mes pasado, el director ejecutivo Mati Staniszewski habló sobre la mejora de los modelos de detección de voz.
“Queremos entender mejor lo que se dice en una conversación. Estamos trabajando en formas de dejar de limitarnos a generar contenido y comprender y transcribir el habla”, dijo Staniszewski en ese momento. “Mucha gente dice que la conversión de voz a texto es un problema resuelto. Pero para muchos idiomas, es bastante grave. Creemos que podemos construir mejores modelos de detección de voz porque tenemos equipos internos que anotan los datos y nos dan una respuesta rápida”.
El modelo también cuenta con un sistema de registro inteligente de los hablantes para saber quién está hablando, una marca de tiempo a nivel de palabra para subtítulos precisos y etiquetado automático de eventos sonoros, como risas de la audiencia. La startup ofrece a los clientes una forma de transcribir directamente el contenido de video para agregar subtítulos o leyendas en su estudio.
Actualmente, Scribe solo funciona con formatos de audio pregrabados. La empresa afirmó que pronto lanzará una versión del modelo en tiempo real y de baja latencia. Eso significa que aún no es eficaz para transcripciones de reuniones o toma de notas de voz.
ElevenLabs ofrece Scribe a 0,40 dólares por una hora de audio transcrito. Si bien la tarifa es competitiva, algunos de sus rivales ofrecen actualmente un precio más bajo por las transcripciones de audio con algunas características diferenciadoras.
techcrunch