Los nuevos modelos Phi-4 AI de Microsoft ofrecen un gran rendimiento en un tamaño pequeño

Suscríbase a nuestros boletines diarios y semanales para recibir las últimas actualizaciones y contenido exclusivo sobre la cobertura de inteligencia artificial líder en la industria. Más información
Microsoft ha presentado una nueva clase de modelos de IA altamente eficientes que procesan texto, imágenes y voz simultáneamente y requieren significativamente menos potencia de procesamiento que los sistemas existentes. Los nuevos modelos Phi-4 , lanzados hoy, representan un gran avance en el desarrollo de modelos de lenguaje pequeños (SLM, por sus siglas en inglés) que ofrecen capacidades que antes estaban reservadas para sistemas de IA mucho más grandes.
Phi-4-Multimodal , un modelo con sólo 5.600 millones de parámetros, y Phi-4-Mini , con 3.800 millones de parámetros, superan a competidores de tamaño similar e incluso igualan o superan el rendimiento de modelos del doble de su tamaño en ciertas tareas, según el informe técnico de Microsoft.
“Estos modelos están diseñados para dotar a los desarrolladores de capacidades avanzadas de inteligencia artificial”, afirmó Weizhu Chen, vicepresidente de inteligencia artificial generativa de Microsoft. “Phi-4-multimodal, con su capacidad de procesar voz, visión y texto simultáneamente, abre nuevas posibilidades para crear aplicaciones innovadoras y sensibles al contexto”.
El logro técnico llega en un momento en que las empresas buscan cada vez más modelos de IA que puedan ejecutarse en hardware estándar o en el " borde ", directamente en los dispositivos en lugar de en centros de datos en la nube, para reducir los costos y la latencia y, al mismo tiempo, mantener la privacidad de los datos.
Lo que distingue a Phi-4-Multimodal es su novedosa técnica de “ mezcla de LoRA ”, que le permite manejar entradas de texto, imágenes y voz dentro de un solo modelo.
“Al aprovechar la combinación de LoRA, Phi-4-Multimodal amplía las capacidades multimodales y, al mismo tiempo, minimiza la interferencia entre modalidades”, afirma el artículo de investigación . “Este enfoque permite una integración perfecta y garantiza un rendimiento constante en tareas que involucran texto, imágenes y voz/audio”.
La innovación permite que el modelo mantenga sus sólidas capacidades lingüísticas al tiempo que añade visión y reconocimiento de voz sin la degradación del rendimiento que a menudo ocurre cuando los modelos se adaptan para múltiples tipos de entrada.
El modelo ha alcanzado la primera posición en la clasificación de Hugging Face OpenASR con una tasa de error de palabras del 6,14 %, superando a los sistemas de reconocimiento de voz especializados como WhisperV3 . También demuestra un rendimiento competitivo en tareas de visión como el razonamiento matemático y científico con imágenes.
A pesar de su tamaño compacto, Phi-4-Mini demuestra capacidades excepcionales en tareas basadas en texto. Microsoft informa que el modelo “supera a modelos de tamaño similar y está a la par de modelos dos veces más grandes” en varios puntos de referencia de comprensión del lenguaje.
Particularmente destacable es el desempeño del modelo en tareas matemáticas y de codificación. Según el artículo de investigación , “Phi-4-Mini consta de 32 capas de transformador con un tamaño de estado oculto de 3072” e incorpora atención de consultas grupales para optimizar el uso de la memoria para la generación de contextos largos.
En el benchmark matemático GSM-8K , Phi-4-Mini logró una puntuación del 88,6%, superando a la mayoría de los modelos de 8 mil millones de parámetros, mientras que en el benchmark MATH alcanzó el 64%, sustancialmente más alto que los competidores de tamaño similar.
“En el caso de la prueba de matemáticas, el modelo supera a modelos de tamaño similar con amplios márgenes, a veces más de 20 puntos. Incluso supera las puntuaciones de modelos dos veces más grandes”, señala el informe técnico.
Capacity , un motor de respuestas de inteligencia artificial que ayuda a las organizaciones a unificar diversos conjuntos de datos, ya ha aprovechado la familia Phi para mejorar la eficiencia y la precisión de su plataforma.
Steve Frederickson, director de productos de Capacity, afirmó en un comunicado : “Desde nuestros experimentos iniciales, lo que realmente nos impresionó de Phi fue su notable precisión y la facilidad de implementación, incluso antes de la personalización. Desde entonces, hemos podido mejorar tanto la precisión como la confiabilidad, todo ello manteniendo la rentabilidad y la escalabilidad que valoramos desde el principio”.
Capacity reportó un ahorro de costos de 4,2x en comparación con los flujos de trabajo de la competencia, logrando al mismo tiempo resultados cualitativos iguales o mejores para las tareas de preprocesamiento.
Durante años, el desarrollo de la IA ha estado impulsado por una filosofía singular: cuanto más grande, mejor. Más parámetros, modelos más grandes, mayores demandas computacionales. Pero los modelos Phi-4 de Microsoft desafían esa suposición, demostrando que la potencia no es solo una cuestión de escala, sino también de eficiencia.
Phi-4-Multimodal y Phi-4-Mini no están diseñados para los centros de datos de los gigantes tecnológicos, sino para el mundo real, donde la potencia informática es limitada, las preocupaciones por la privacidad son primordiales y la IA necesita funcionar sin problemas sin una conexión constante a la nube. Estos modelos son pequeños, pero tienen peso. Phi-4-Multimodal integra el procesamiento de voz, visión y texto en un solo sistema sin sacrificar la precisión, mientras que Phi-4-Mini ofrece un rendimiento en matemáticas, codificación y razonamiento a la par de modelos del doble de su tamaño.
No se trata solo de hacer que la IA sea más eficiente, sino de hacerla más accesible. Microsoft ha posicionado a Phi-4 para su adopción generalizada, poniéndolo a disposición a través de Azure AI Foundry , Hugging Face y Nvidia API Catalog . El objetivo es claro: una IA que no esté encerrada detrás de un hardware costoso o una infraestructura masiva, sino que pueda operar en dispositivos estándar, en el borde de las redes y en industrias donde la potencia de cómputo es escasa.
Masaya Nishimaki, director de la empresa japonesa de inteligencia artificial Headwaters Co., Ltd., ve el impacto de primera mano. “La inteligencia artificial de borde demuestra un rendimiento sobresaliente incluso en entornos con conexiones de red inestables o donde la confidencialidad es primordial”, dijo en un comunicado . Eso significa una IA que puede funcionar en fábricas, hospitales, vehículos autónomos, lugares donde se requiere inteligencia en tiempo real, pero donde los modelos tradicionales basados en la nube se quedan cortos.
En esencia, Phi-4 representa un cambio de mentalidad. La IA no es solo una herramienta para quienes tienen los servidores más grandes y los bolsillos más profundos. Es una capacidad que, si está bien diseñada, puede funcionar en cualquier lugar y para cualquier persona. Lo más revolucionario de Phi-4 no es lo que puede hacer, sino dónde puede hacerlo.
Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le brindamos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que pueda compartir información y obtener el máximo retorno de la inversión.
Lea nuestra Política de privacidad
Gracias por suscribirse. Vea más boletines de VB aquí .
Se produjo un error.

venturebeat