I nuovi modelli Phi-4 AI di Microsoft offrono grandi prestazioni in piccoli pacchetti

Iscriviti alle nostre newsletter giornaliere e settimanali per gli ultimi aggiornamenti e contenuti esclusivi sulla copertura AI leader del settore. Scopri di più
Microsoft ha introdotto una nuova classe di modelli di intelligenza artificiale altamente efficienti che elaborano testo, immagini e parlato simultaneamente, richiedendo una potenza di elaborazione notevolmente inferiore rispetto ai sistemi esistenti. I nuovi modelli Phi-4 , rilasciati oggi, rappresentano una svolta nello sviluppo di modelli di linguaggio di piccole dimensioni (SLM) che offrono capacità precedentemente riservate a sistemi di intelligenza artificiale molto più grandi.
Secondo il rapporto tecnico di Microsoft , Phi-4-Multimodal , un modello con appena 5,6 miliardi di parametri, e Phi-4-Mini , con 3,8 miliardi di parametri, superano i concorrenti di dimensioni simili e addirittura eguagliano o superano le prestazioni di modelli di dimensioni doppie rispetto a loro in determinate attività.
"Questi modelli sono progettati per potenziare gli sviluppatori con funzionalità di intelligenza artificiale avanzate", ha affermato Weizhu Chen, Vice President, Generative AI presso Microsoft. "Phi-4-multimodal, con la sua capacità di elaborare simultaneamente voce, visione e testo, apre nuove possibilità per la creazione di applicazioni innovative e consapevoli del contesto".
Questo risultato tecnico arriva in un momento in cui le aziende sono sempre più alla ricerca di modelli di intelligenza artificiale che possano essere eseguiti su hardware standard o all'" edge ", ovvero direttamente sui dispositivi anziché nei data center cloud, per ridurre i costi e la latenza mantenendo al contempo la privacy dei dati.
Ciò che distingue Phi-4-Multimodal è la sua innovativa tecnica di " combinazione di LoRA ", che gli consente di gestire testo, immagini e input vocali all'interno di un unico modello.
"Sfruttando la miscela di LoRA, Phi-4-Multimodal estende le capacità multimodali riducendo al minimo l'interferenza tra le modalità", afferma il documento di ricerca . "Questo approccio consente un'integrazione senza soluzione di continuità e garantisce prestazioni coerenti tra le attività che coinvolgono testo, immagini e parlato/audio".
Questa innovazione consente al modello di mantenere le sue solide capacità linguistiche, aggiungendo al contempo riconoscimento visivo e vocale, senza il degrado delle prestazioni che spesso si verifica quando i modelli vengono adattati a più tipi di input.
Il modello ha conquistato la prima posizione nella classifica Hugging Face OpenASR con un tasso di errore di parola del 6,14%, superando i sistemi specializzati di riconoscimento vocale come WhisperV3 . Dimostra inoltre prestazioni competitive in compiti visivi come ragionamento matematico e scientifico con immagini.
Nonostante le dimensioni compatte, Phi-4-Mini dimostra capacità eccezionali nelle attività basate su testo. Microsoft segnala che il modello "supera modelli di dimensioni simili ed è alla pari con modelli due volte più grandi" in vari benchmark di comprensione del linguaggio.
Particolarmente degne di nota sono le prestazioni del modello in attività di matematica e codifica. Secondo il documento di ricerca , "Phi-4-Mini è costituito da 32 livelli di Transformer con dimensione dello stato nascosto di 3.072" e incorpora l'attenzione alle query di gruppo per ottimizzare l'utilizzo della memoria per la generazione di contesti lunghi.
Nel benchmark matematico GSM-8K , Phi-4-Mini ha ottenuto un punteggio dell'88,6%, superando la maggior parte dei modelli da 8 miliardi di parametri, mentre nel benchmark MATH ha raggiunto il 64%, un punteggio notevolmente superiore rispetto ai concorrenti di dimensioni simili.
"Per il benchmark Math, il modello supera modelli di dimensioni simili con ampi margini, a volte più di 20 punti. Supera persino i punteggi di modelli due volte più grandi", nota il rapporto tecnico.
Capacity , un motore di risposta basato sull'intelligenza artificiale che aiuta le organizzazioni a unificare diversi set di dati, ha già sfruttato la famiglia Phi per migliorare l'efficienza e l'accuratezza della propria piattaforma.
Steve Frederickson, Head of Product presso Capacity, ha affermato in una dichiarazione : "Dai nostri esperimenti iniziali, ciò che ci ha veramente impressionato del Phi è stata la sua notevole accuratezza e la facilità di distribuzione, anche prima della personalizzazione. Da allora, siamo stati in grado di migliorare sia l'accuratezza che l'affidabilità, il tutto mantenendo il rapporto costi-efficacia e la scalabilità che abbiamo apprezzato fin dall'inizio".
Capacity ha registrato un risparmio sui costi pari a 4,2 volte rispetto ai flussi di lavoro concorrenti, ottenendo al contempo risultati qualitativi uguali o migliori per le attività di pre-elaborazione.
Per anni, lo sviluppo dell'IA è stato guidato da una filosofia singolare: più grande è meglio. Più parametri, modelli più grandi, maggiori richieste computazionali. Ma i modelli Phi-4 di Microsoft sfidano questa ipotesi, dimostrando che la potenza non riguarda solo la scala, ma l'efficienza.
Phi-4-Multimodal e Phi-4-Mini sono progettati non per i data center dei giganti della tecnologia, ma per il mondo reale, dove la potenza di calcolo è limitata, le preoccupazioni per la privacy sono fondamentali e l'intelligenza artificiale deve funzionare senza problemi senza una connessione costante al cloud. Questi modelli sono piccoli, ma hanno un peso. Phi-4-Multimodal integra elaborazione vocale, visiva e di testo in un unico sistema senza sacrificare la precisione, mentre Phi-4-Mini offre prestazioni matematiche, di codifica e di ragionamento alla pari con modelli grandi il doppio.
Non si tratta solo di rendere l'IA più efficiente; si tratta di renderla più accessibile. Microsoft ha posizionato Phi-4 per un'adozione diffusa, rendendolo disponibile tramite Azure AI Foundry , Hugging Face e Nvidia API Catalog . L'obiettivo è chiaro: un'IA che non sia bloccata dietro hardware costoso o infrastrutture massicce, ma che possa funzionare su dispositivi standard, ai margini delle reti e in settori in cui la potenza di calcolo è scarsa.
Masaya Nishimaki, direttore della società giapponese di intelligenza artificiale Headwaters Co., Ltd., ne vede l'impatto in prima persona. "Edge AI dimostra prestazioni eccezionali anche in ambienti con connessioni di rete instabili o in cui la riservatezza è fondamentale", ha affermato in una dichiarazione . Ciò significa un'intelligenza artificiale che può funzionare in fabbriche, ospedali, veicoli autonomi, luoghi in cui è richiesta l'intelligenza in tempo reale, ma in cui i modelli tradizionali basati sul cloud sono carenti.
Nel profondo, Phi-4 rappresenta un cambiamento di pensiero. L'intelligenza artificiale non è solo uno strumento per chi ha i server più grandi e le tasche più profonde. È una capacità che, se progettata bene, può funzionare ovunque, per chiunque. La cosa più rivoluzionaria di Phi-4 non è cosa può fare, ma dove può farlo.
Se vuoi impressionare il tuo capo, VB Daily ha quello che fa per te. Ti diamo informazioni privilegiate su cosa stanno facendo le aziende con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per il massimo ROI.
Leggi la nostra Informativa sulla Privacy
Grazie per esserti iscritto. Scopri altre newsletter VB qui .
Si è verificato un errore.

venturebeat