ElevenLabs kendi konuşma-metne modelini piyasaya sürüyor

180 milyon dolarlık mega fonlama turunu yeni tamamlayan bir AI girişimi olan ElevenLabs , öncelikle ses üretme becerisiyle biliniyor. Şirket, Scribe adlı ilk bağımsız konuşma-metne modelini piyasaya sürerek başka bir teknolojik yönde adım attı.
3,3 milyar dolar değerindeki girişim, geniş ses kütüphanesi aracılığıyla birçok başka şirketin konuşma-metne hizmetleri sağlamasına yardımcı oldu. Ancak şirket şimdi konuşma algılamaya girmeyi ve Gladia , Speechmatics , AssemblyAI , Deepgram ve OpenAI'nin Whisper modelleri gibi şirketlerle rekabet etmeyi hedefliyor.
ElevenLabs' Scribe modeli lansmanda 99'dan fazla dili destekliyor. Şirket, kelime hata oranının %5'ten az olduğu model için 25'ten fazla dili mükemmel doğruluk kategorisinde sınıflandırıyor. Bu liste İngilizce'yi (%97 iddia edilen doğruluk oranı), Fransızca, Almanca, Hintçe, Endonezyaca, Japonca, Kannada, Malayalam, Lehçe, Portekizce, İspanyolca ve Vietnamca'yı içeriyor. Diğer diller yüksek (%5-10 kelime hata oranı), iyi (%10 ila %20 kelime hata oranı) ve orta (%25 ila %50) kelime hata oranlarıyla farklı kategorilerde sıralanıyor.
Şirket, modelin FLEURS ve Common Voice kıyaslama testlerinde birden fazla dilde Google Gemini 2.0 Flash ve Whisper Large V3'ü geride bıraktığını belirtti.

ElevenLabs, geçen yıl piyasaya sürülen AI konuşma aracısı platformu için konuşmadan metne bileşenini geliştirmişti. Ancak bu, şirketin ilk kez bağımsız bir konuşma algılama modeli yayınlaması . Geçtiğimiz ay TechCrunch ile yaptığı bir sohbette CEO Mati Staniszewski, konuşma algılama modellerini iyileştirmekten bahsetti.
Staniszewski o zamanlar, "Bir konuşmada sizin tarafınızdan söylenenleri daha iyi anlamak istiyoruz. Sadece içerik üretmekten ve konuşmayı anlayıp yazıya dökmekten uzaklaşmanın yolları üzerinde çalışıyoruz," demişti. "Birçok kişi konuşmadan metne dönüştürmenin çözülmüş bir sorun olduğunu söylüyor. Ancak birçok dil için oldukça kötü. Verileri ek açıklama verip bize hızlı geri bildirim sağlayan şirket içi ekiplerimiz olduğu için daha iyi konuşma algılama modelleri oluşturabileceğimizi düşünüyoruz."
Model ayrıca kimin konuştuğunu size söyleyen akıllı konuşmacı günlüğüne, doğru altyazılar için kelime düzeyinde zaman damgasına ve izleyici kahkahaları gibi ses olaylarını otomatik etiketleme özelliğine sahiptir. Girişim, müşterilere stüdyosunda altyazı veya açıklama eklemek için video içeriğini doğrudan yazıya dökmenin bir yolunu sağlıyor.
Scribe şu anda yalnızca önceden kaydedilmiş ses formatlarıyla çalışıyor. Şirket, modelin düşük gecikmeli gerçek zamanlı bir sürümünü yakında yayınlayacağını söyledi. Bu, toplantı transkripsiyonları veya sesli not alma için henüz etkili olmadığı anlamına geliyor.
ElevenLabs, Scribe'ı bir saatlik transkripsiyonlu ses için 0,40 dolardan fiyatlandırıyor. Oran rekabetçi olsa da, bazı rakipleri şu anda bazı özellik farklılaştırmalarıyla ses transkripsiyonları için daha düşük bir fiyat sunuyor .
techcrunch