Hume lancia il modello di sintesi vocale Octave che genera voci AI emozionali e regolabili su richiesta in base ai tuoi prompt

Iscriviti alle nostre newsletter giornaliere e settimanali per gli ultimi aggiornamenti e contenuti esclusivi sulla copertura AI leader del settore. Scopri di più

La startup newyorkese Hume AI è emersa dall'ombra due anni fa e da allora ha raccolto milioni di finanziamenti grazie alla sua tecnologia che crea voci di intelligenza artificiale emotive da utilizzare in applicazioni aziendali.

Oggi, sta portando la sua offerta a un livello superiore con un nuovo modello di linguaggio e parlato di grandi dimensioni chiamato "Omni-capable text and voice engine", o Octave in breve, progettato per produrre discorsi realistici ed emotivamente sfumati da utilizzare in diverse forme di contenuto, dagli audiolibri ai dialoghi preregistrati dei personaggi dei videogiochi e film/TV/video.

Hume sostiene che Octave sia il primo sistema text-to-speech basato su un modello linguistico di grandi dimensioni (LLM) addestrato non solo sul testo, ma anche su token di parlato ed emozioni, che gli consente di comprendere le parole nel contesto e di adattare di conseguenza tono, ritmo e cadenza, che l'utente può modificare a livello di frase con prompt di testo.

"Stiamo lanciando il primo LLM per la conversione del testo in voce, un modello che comprende le parole nel contesto, prevedendo le giuste emozioni, ritmo, cadenza ed enfasi, rendendo il parlato più umano che mai", ha affermato Alan Cowen, co-fondatore e CEO di Hume AI, in un'intervista tramite videochiamata con VentureBeat.

Le capacità di Octave vanno oltre la generazione vocale di base. Può interpretare i tratti caratteriali e lo stile da un solo copione, adattando le inflessioni vocali per adattarle alle emozioni implicite. Un'osservazione sarcastica sarà pronunciata in modo sarcastico, una frase in preda al panico suonerà urgente e un segreto sussurrato sarà messo a tacere, il tutto senza bisogno di indicazioni esplicite.

Inoltre, se all'utente non piace la voce generata o desidera modificarla, può farlo in modo granulare tramite linguaggio naturale, semplicemente digitando un'istruzione testuale in Octave, come "più felice, più triste, più frustrato, più arrabbiato, più sarcastico, più sincero", ecc.

"Puoi descrivere un personaggio, come un contadino medievale sarcastico, e il modello creerà immediatamente quella voce, adattando emozioni come rabbia, tristezza o felicità in base alle tue istruzioni", ha aggiunto Cowen.

Sebbene la versione attuale si concentri sulla lingua inglese, Octave supporta anche lo spagnolo e si prevede che espanderà le sue capacità linguistiche nel prossimo futuro.

Su misura per la creazione di contenuti

Octave è pensato appositamente per i creatori di contenuti e la produzione multimediale, con applicazioni in audiolibri, podcast, personaggi di videogiochi e doppiaggi video.

"Questo nuovo modello è progettato per la conversione di testo in voce offline, perfetto per audiolibri, podcast, voice-over video e personaggi di videogiochi, in cui i creatori hanno bisogno di voci realistiche e specifiche per i personaggi", ha spiegato Cowen.

Tuttavia, l'utente deve accedervi tramite il sito web di Hume, nella sua pagina Progetti o tramite un'interfaccia di programmazione dell'applicazione (API). Il componente "offline" si riferisce al fatto che questo modello è progettato per produrre file audio discreti che possono essere aggiunti a progetti come video o audiolibri. Non è progettato per svolgere conversazioni in tempo reale, anche se ciò potrebbe teoricamente essere consentito tramite l'inoltro di query di testo al sito web.

L'API di Hume consente agli sviluppatori di effettuare fino a 50 richieste del nuovo modello Octave al minuto, con una lunghezza massima del testo di 5.000 caratteri e descrizioni limitate a 1.000 caratteri. Ogni richiesta può generare fino a cinque output e i formati audio supportati includono MP3, WAV e PCM.

La precedente serie di modelli EVI di Hume consente interazioni avanti e indietro in streaming e in tempo reale, è ancora disponibile e continuerà a essere sviluppata.

Hume AI offre un modello di prezzi basato su abbonamento con livelli che vanno dall'opzione gratuita ai piani Creator, Creator Pro ed Enterprise.

Ecco una ripartizione concisa delle offerte:

Gratuito ($ 0/mese) – 10.000 caratteri di testo in voce al mese (~10 minuti) con voci personalizzate illimitate.
Starter ($ 3/mese) – 30.000 caratteri (~30 minuti) più supporto per un massimo di 20 progetti.
Creator ($ 10/mese) – 100.000 caratteri (~100 minuti), prezzi in base all'utilizzo per i caratteri extra ($ 0,20/1.000) e supporto per un massimo di 1.000 progetti.
Pro ($ 50/mese) – 500.000 caratteri (~500 minuti), prezzi più bassi in base all'utilizzo ($ 0,15/1.000) e supporto per un massimo di 3.000 progetti.
Scala ($ 150/mese) – 2.000.000 di caratteri (~2.000 minuti), ulteriore riduzione dei prezzi in base all'utilizzo ($ 0,13/1.000) e supporto per un massimo di 10.000 progetti.
Business ($ 900/mese) – 10.000.000 di caratteri (~10.000 minuti), prezzi ancora più bassi in base all'utilizzo ($ 0,10/1.000) e supporto per un massimo di 20.000 progetti.
Enterprise (prezzo personalizzato) : utilizzo illimitato, termini legali personalizzati, garanzie di sicurezza, prezzi all'ingrosso notevolmente scontati e supporto prioritario.

Nel complesso, Hume ha sottolineato che il prezzo di Octave TTS è circa la metà di quello della startup concorrente per la creazione di voci tramite intelligenza artificiale ElevenLabs , a dimostrazione dell'intensificarsi della concorrenza nel settore della conversione del testo in voce.

Inoltre, Hume AI ha condotto uno studio di confronto cieco con 180 valutatori umani per confrontare Octave con ElevenLabs. I risultati hanno mostrato che Octave è stato preferito in termini di qualità audio (71,6% delle prove), naturalezza (51,7% delle prove) e quanto bene il discorso corrispondeva alle descrizioni della voce desiderata (57,7% delle prove), su 120 prompt diversi.

Per valutare ulteriormente le sue prestazioni, Hume AI ha anche lanciato l'Expressive TTS Arena, un benchmark pubblico progettato per testare l'efficacia dei modelli di intelligenza artificiale nel gestire discorsi più lunghi ed espressivi, un'area che i precedenti benchmark TTS avevano ampiamente trascurato.

A differenza dei tradizionali sistemi text-to-speech che si basano su set di dati vocali limitati, Octave TTS è basato su un LLM addestrato su decine di migliaia di miliardi di token linguistici.

"I tradizionali modelli text-to-speech sono addestrati su dati vocali limitati, ma il nostro è costruito su un LLM addestrato su decine di trilioni di token, che gli consente di ragionare, pensare e dedurre emozioni dal testo", ha affermato Cowen.

Il modello è stato addestrato utilizzando milioni di ore di dati vocali pubblici e di lunga durata e set di dati proprietari di Hume AI di nuove voci registrate dai partecipanti al sondaggio.

"Abbiamo raccolto dati da persone che si registravano tramite webcam, reagendo naturalmente ai video, raccontando storie e parlando con gli altri, compresi amici e familiari, per catturare un'ampia gamma di espressioni emotive", ha affermato Cowen.

Questa formazione approfondita consente al modello di dedurre il contesto emotivo e di seguire istruzioni dettagliate, creando voci che corrispondono a descrizioni e attributi specifici del personaggio.

Il modello, disponibile oggi tramite la piattaforma e l'API di Hume AI, offre un controllo emotivo a livello di frase, con una certa flessibilità all'interno delle frasi.

"La modulazione vocale funziona a livello di frase, ma puoi anche adattare parti di una frase, istruendo il modello a trasmettere emozioni sfumate come una leggera frustrazione mescolata a umorismo o esasperazione", ha osservato Cowen. Il modello considera anche il contesto oltre le singole frasi. "A differenza dei modelli tradizionali che elaborano il testo parola per parola, il nostro modello considera interi paragrafi, catturando il contesto per fornire un discorso più naturale ed emotivamente accurato", ha spiegato.

Octave TTS mantiene coerenti le voci dei personaggi nei contenuti di lunga durata.

"Con la nostra piattaforma, puoi generare voci uniche per ogni personaggio di un audiolibro, come un orco di mezza età, e mantenere la voce di quel personaggio per tutta la storia", ha affermato Cowen.

Questa funzionalità è supportata dalla pagina "Progetti" di Hume AI, che gestisce contenuti di lunga durata, come gli audiolibri, suddividendo automaticamente il testo, preservando al contempo la coerenza dei caratteri e il contesto tra i capitoli.

Hume ha integrato delle protezioni tecniche nel suo sito web e nella sua API che proibiscono la creazione di voci di bambini realistiche e imitazioni di individui specifici, ma a parte questo, è libero di essere utilizzato su un'ampia gamma di contenuti e argomenti, comprese scene potenzialmente non sicure per il lavoro, come quelle presenti nei romanzi rosa più popolari.

"Diamo libertà agli sviluppatori, consentendo contenuti che spaziano su un'ampia gamma di esperienze umane, anche se limitiamo la creazione di voci di bambini realistiche e imitazioni di individui specifici", ha spiegato Cowen.

Cowen ha inoltre affermato che l'azienda potrebbe adattare queste misure di sicurezza su richiesta di clienti specifici, come ad esempio un editore di libri per bambini che desidera creare voci per audiolibri per bambini.

Inoltre, Hume AI sta lavorando a una futura funzionalità di clonazione vocale, che consentirà agli utenti di replicare una voce da appena cinque secondi di audio. L'azienda sta sviluppando misure di sicurezza per garantire un uso etico prima di distribuire pubblicamente la funzionalità.

Grazie alla combinazione di consapevolezza contestuale, espressione emotiva e personalizzazione del personaggio, Octave TTS mira a fornire ai creatori di contenuti maggiore controllo e flessibilità, offrendo voci che suonano allo stesso tempo realistiche ed emotivamente coinvolgenti.

Approfondimenti quotidiani sui casi d'uso aziendali con VB Daily

Se vuoi impressionare il tuo capo, VB Daily ha quello che fa per te. Ti diamo informazioni privilegiate su cosa stanno facendo le aziende con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per il massimo ROI.

Leggi la nostra Informativa sulla Privacy

Grazie per esserti iscritto. Scopri altre newsletter VB qui .

Si è verificato un errore.

venturebeat

Hume lancia il modello di sintesi vocale Octave che genera voci AI emozionali e regolabili su richiesta in base ai tuoi prompt

Iscriviti alle nostre newsletter giornaliere e settimanali per gli ultimi aggiornamenti e contenuti esclusivi sulla copertura AI leader del settore. Scopri di più

Sebbene la versione attuale si concentri sulla lingua inglese, Octave supporta anche lo spagnolo e si prevede che espanderà le sue capacità linguistiche nel prossimo futuro.

Su misura per la creazione di contenuti

Octave è pensato appositamente per i creatori di contenuti e la produzione multimediale, con applicazioni in audiolibri, podcast, personaggi di videogiochi e doppiaggi video.

La precedente serie di modelli EVI di Hume consente interazioni avanti e indietro in streaming e in tempo reale, è ancora disponibile e continuerà a essere sviluppata.

Hume AI offre un modello di prezzi basato su abbonamento con livelli che vanno dall'opzione gratuita ai piani Creator, Creator Pro ed Enterprise.

Ecco una ripartizione concisa delle offerte:

Gratuito ($ 0/mese) – 10.000 caratteri di testo in voce al mese (~10 minuti) con voci personalizzate illimitate.
Starter ($ 3/mese) – 30.000 caratteri (~30 minuti) più supporto per un massimo di 20 progetti.
Creator ($ 10/mese) – 100.000 caratteri (~100 minuti), prezzi in base all'utilizzo per i caratteri extra ($ 0,20/1.000) e supporto per un massimo di 1.000 progetti.
Pro ($ 50/mese) – 500.000 caratteri (~500 minuti), prezzi più bassi in base all'utilizzo ($ 0,15/1.000) e supporto per un massimo di 3.000 progetti.
Scala ($ 150/mese) – 2.000.000 di caratteri (~2.000 minuti), ulteriore riduzione dei prezzi in base all'utilizzo ($ 0,13/1.000) e supporto per un massimo di 10.000 progetti.
Business ($ 900/mese) – 10.000.000 di caratteri (~10.000 minuti), prezzi ancora più bassi in base all'utilizzo ($ 0,10/1.000) e supporto per un massimo di 20.000 progetti.
Enterprise (prezzo personalizzato) : utilizzo illimitato, termini legali personalizzati, garanzie di sicurezza, prezzi all'ingrosso notevolmente scontati e supporto prioritario.

A differenza dei tradizionali sistemi text-to-speech che si basano su set di dati vocali limitati, Octave TTS è basato su un LLM addestrato su decine di migliaia di miliardi di token linguistici.

Il modello è stato addestrato utilizzando milioni di ore di dati vocali pubblici e di lunga durata e set di dati proprietari di Hume AI di nuove voci registrate dai partecipanti al sondaggio.

Il modello, disponibile oggi tramite la piattaforma e l'API di Hume AI, offre un controllo emotivo a livello di frase, con una certa flessibilità all'interno delle frasi.

Octave TTS mantiene coerenti le voci dei personaggi nei contenuti di lunga durata.

Approfondimenti quotidiani sui casi d'uso aziendali con VB Daily

Leggi la nostra Informativa sulla Privacy

Grazie per esserti iscritto. Scopri altre newsletter VB qui .

Si è verificato un errore.

venturebeat

Hume lancia il modello di sintesi vocale Octave che genera voci AI emozionali e regolabili su richiesta in base ai tuoi prompt

Notizie simili

Hume lancia il modello di sintesi vocale Octave che genera voci AI emozionali e regolabili su richiesta in base ai tuoi prompt

Notizie simili

I tuoi telefoni Android non sono più "Google", sono tutti "Gemini"

Nvidia annuncia i guadagni del quarto trimestre dopo la campana

Elon Musk si assicura un contratto FAA da 2 MILIARDI DI DOLLARI in un "evidente conflitto di interessi"

Amazon conferma la nuova tariffa per l'utilizzo di Alexa sul tuo Echo, ma c'è un modo per evitarla

Alexa+ di Amazon, dotata di intelligenza artificiale, sarà accessibile sul web