O novo modelo de conversão de fala em texto da ElevenLabs, Scribe, está aqui com a maior taxa de precisão até agora (96,7% para inglês)

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais
A ElevenLabs, a startup de clonagem e geração de voz de IA altamente valorizada de ex-alunos da Palantir, lançou hoje o Scribe v1 , um novo modelo de conversão de fala em texto que supostamente atinge a mais alta precisão em vários idiomas. Os usuários podem experimentá-lo aqui no site da ElevenLabs.
De acordo com os benchmarks da empresa, ele supera o Gemini 2.0 Flash do Google, o Whisper v3 da OpenAI e o Deepgram Nova-3 na conversão precisa de fala falada em texto na web, alcançando novas taxas de erro recordes.
A empresa afirma que o Scribe oferece precisão de transcrição de última geração em 99 idiomas, incluindo desempenho aprimorado em idiomas anteriormente mal atendidos, como sérvio, cantonês e malaiala.
Como Flavio Schneider, pesquisador líder da ElevenLabs , escreveu no X , o Scribe é o “modelo de compreensão de áudio mais inteligente” lançado pela ElevenLabs até agora.
“O Scribe não apenas transcreve — ele entende áudio”, Schneider continuou em uma resposta encadeada. “Ele pode detectar eventos não verbais (como risos, efeitos sonoros, música e ruído de fundo) e analisar contextos longos de áudio para uma diarização precisa, mesmo nos ambientes mais desafiadores.”
“ Diarização ” é o nome dado aos processos de separação de falantes por suas qualidades vocais em uma gravação.
De fato, a documentação do ElevenLabs afirma que o Scribe pode distinguir e isolar até 32 alto-falantes diferentes no mesmo arquivo de áudio.
Embora a ElevenLabs alerte que o Scribe é "melhor usado quando é necessária uma transcrição de alta precisão em vez de transcrição em tempo real", a empresa também planeja introduzir uma versão de baixa latência em breve, expandindo seu uso para aplicações em tempo real.
O Scribe foi projetado para lidar com desafios de áudio do mundo real com precisão. De acordo com os resultados de benchmark da FLEURS e Common Voice, ele registra as menores taxas de erro de palavra (WER) para muitos idiomas, incluindo italiano (98,7%) e inglês (96,7%).
Os principais recursos incluem:
- Diarização de alto-falantes para diferenciar alto-falantes em gravações com vários alto-falantes
- Carimbos de data e hora em nível de palavra para precisão detalhada da transcrição
- Detecção de eventos não verbais , como risos e ruídos de fundo
- Saída de transcrição estruturada para integração perfeita via API
O Scribe já está disponível no site e na API da ElevenLabs.
O preço é definido em US$ 0,40 por hora de áudio de entrada, com um desconto de 50% nas próximas seis semanas. Uma versão de baixa latência para aplicativos em tempo real também está em desenvolvimento.
Para tomadores de decisões empresariais, o Scribe apresenta uma ferramenta para transcrição escalável e de alta precisão, tornando-a útil para setores que dependem de documentação automatizada, transcrição de reuniões e acessibilidade de conteúdo.
A capacidade do modelo de lidar com diversos idiomas com alta precisão também beneficia empresas multinacionais, empresas de mídia e aplicativos de suporte ao cliente.
A estrutura de preços do Scribe o torna competitivo para empresas que exigem serviços de transcrição de alto volume, e sua integração baseada em API permite uma adoção perfeita em fluxos de trabalho empresariais.
Além disso, a próxima versão de baixa latência pode posicionar o Scribe como uma opção viável para ferramentas de comunicação em tempo real.
Chegando no mesmo dia que o modelo oposto de texto para fala do rival Hume, OctaveO tempo é tudo, e a ElevenLabs decidiu lançar o Scribe no mesmo dia em que seu rival Hume AI revelou o Octave, um modelo de conversão de texto em fala com tecnologia LLM que permite aos usuários personalizar vozes geradas por IA com emoções ajustáveis.
Ele foi projetado para criação de conteúdo, incluindo audiolivros, podcasts e locuções de videogame. Diferentemente dos sistemas TTS padrão, o Octave considera o contexto além de frases individuais, ajustando o tom, o ritmo e a cadência dinamicamente para soar mais natural.
A Hume AI posiciona a Octave como concorrente direta das ofertas de conversão de texto em fala da ElevenLabs, destacando que o preço da Octave é cerca de metade do custo dos atuais serviços de voz de IA da ElevenLabs.
Embora o Scribe e o Octave tenham funções diferentes, seu desenvolvimento reflete a crescente concorrência em modelos de áudio baseados em IA.
A ElevenLabs está priorizando o reconhecimento de fala preciso e multilíngue, enquanto a Hume AI está avançando na fala expressiva gerada por IA.
Para as empresas, isso significa soluções mais especializadas para aplicações de transcrição e voz sintética, permitindo produção de conteúdo mais eficiente, engajamento do cliente e ferramentas de acessibilidade.
O Scribe já está no ar, e a ElevenLabs está hospedando um evento virtual na próxima semana com a equipe por trás do seu desenvolvimento. Mais detalhes, benchmarks e documentação da API estão disponíveis no post oficial do blog .
Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Nós damos a você informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para obter o máximo de ROI.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais boletins informativos do VB aqui .
Ocorreu um erro.

venturebeat