Hugging Face lanza FastRTC para simplificar las aplicaciones de voz y video con inteligencia artificial en tiempo real

26 de febrero de 2025 14:27

Crédito: Hugging Face

Suscríbase a nuestros boletines diarios y semanales para recibir las últimas actualizaciones y contenido exclusivo sobre la cobertura de inteligencia artificial líder en la industria. Más información

Hugging Face , la startup de inteligencia artificial valorada en más de 4 mil millones de dólares, ha presentado FastRTC , una biblioteca Python de código abierto que elimina un obstáculo importante para los desarrolladores que crean aplicaciones de inteligencia artificial de audio y video en tiempo real.

“Desarrollar aplicaciones WebRTC y Websocket en tiempo real es muy difícil de hacer correctamente en Python. Hasta ahora”, escribió Freddy Boulton, uno de los creadores de FastRTC, en un anuncio en X.com.

La tecnología WebRTC permite la comunicación directa entre navegadores para compartir audio, video y datos sin necesidad de complementos ni descargas. A pesar de ser esencial para los asistentes de voz y las herramientas de video modernas, la implementación de WebRTC sigue siendo una habilidad especializada que la mayoría de los ingenieros de aprendizaje automático simplemente no poseen.

Desarrollar aplicaciones WebRTC y Websocket en tiempo real es muy difícil de hacer correctamente en Python.
Hasta ahora: Presentamos FastRTC, la biblioteca de comunicación en tiempo real para Python ⚡️ pic.twitter.com/PR67kiZ9KE

— Freddy A Boulton (@freddy_alfonso_) 25 de febrero de 2025

El momento no podría ser más estratégico. La inteligencia artificial por voz ha atraído una enorme atención y capital: ElevenLabs recientemente obtuvo una financiación de 180 millones de dólares , mientras que empresas como Kyutai , Alibaba y Fixie.ai han lanzado modelos de audio especializados.

Sin embargo, persiste una desconexión entre estos sofisticados modelos de IA y la infraestructura técnica necesaria para implementarlos en aplicaciones reactivas y en tiempo real. Como señaló Hugging Face en su publicación de blog , “es posible que los ingenieros de ML no tengan experiencia con las tecnologías necesarias para crear aplicaciones en tiempo real, como WebRTC”.

FastRTC resuelve este problema con funciones automatizadas que gestionan las partes complejas de la comunicación en tiempo real. La biblioteca ofrece detección de voz, capacidades de toma de turnos, interfaces de prueba e incluso generación de números de teléfono temporales para el acceso a aplicaciones.

¿Quieres crear aplicaciones en tiempo real con Gemini 2.0 Flash de @GoogleDeepMind ? FastRTC te permite crear aplicaciones en tiempo real basadas en Python utilizando Gradio-UI. ?? Transforma funciones de Python en transmisiones de audio y video bidireccionales con un código mínimo
?️ Detección de voz incorporada y automática… pic.twitter.com/o835htr0hl
— Philipp Schmid (@_philschmid) 26 de febrero de 2025

La principal ventaja de la biblioteca es su simplicidad. Según se informa, los desarrolladores pueden crear aplicaciones de audio básicas en tiempo real con solo unas pocas líneas de código, un contraste sorprendente con las semanas de trabajo de desarrollo que se requerían anteriormente.

Este cambio tiene importantes implicaciones para las empresas. Las empresas que antes necesitaban ingenieros de comunicaciones especializados ahora pueden aprovechar a sus desarrolladores de Python existentes para crear funciones de IA de voz y video.

“Puede utilizar cualquier API LLM/texto a voz/voz a texto o incluso un modelo de voz a voz. Traiga las herramientas que ama: FastRTC solo se encarga de la capa de comunicación en tiempo real”, explica el anuncio.

Opinión candente: WebRTC debería ser UNA línea de código Python. Presentamos FastRTC⚡️ de Gradio. Comienza ahora: pip install fastrtc. Lo que obtienes: – Llama a tu IA desde un teléfono real. – Detección automática de voz. – Funciona con CUALQUIER modelo. – Interfaz de usuario instantánea de Gradio para realizar pruebas.
Esto lo cambia todo pic.twitter.com/kvx436xbgN
– Gradio (@Gradio) 25 de febrero de 2025

La introducción de FastRTC marca un punto de inflexión en el desarrollo de aplicaciones de IA. Al eliminar una importante barrera técnica, la herramienta abre posibilidades que para muchos desarrolladores habían permanecido en el terreno teórico.

El impacto podría ser particularmente significativo para las empresas más pequeñas y los desarrolladores independientes. Si bien los gigantes tecnológicos como Google y OpenAI tienen los recursos de ingeniería para construir una infraestructura de comunicación personalizada en tiempo real, la mayoría de las organizaciones no los tienen. FastRTC básicamente brinda acceso a capacidades que antes estaban reservadas para quienes contaban con equipos especializados.

El “ libro de recetas ” de la biblioteca ya muestra diversas aplicaciones: chats de voz impulsados por varios modelos de lenguaje, detección de objetos de video en tiempo real y generación de código interactivo a través de comandos de voz.

Lo que es particularmente notable es el momento en que se lanza. FastRTC llega justo cuando las interfaces de IA están dejando de lado las interacciones basadas en texto para pasar a experiencias más naturales y multimodales. Los sistemas de IA más sofisticados de la actualidad pueden procesar y generar texto, imágenes, audio y video, pero implementar estas capacidades en aplicaciones receptivas y en tiempo real sigue siendo un desafío.

Al cerrar la brecha entre los modelos de IA y la comunicación en tiempo real, FastRTC no solo facilita el desarrollo, sino que también acelera potencialmente el cambio más amplio hacia experiencias de IA mejoradas con voz y video que se sienten más humanas y menos parecidas a las de una computadora.

Para los usuarios, esto podría significar interfaces más naturales entre las aplicaciones. Para las empresas, significa una implementación más rápida de las funciones que sus clientes esperan cada vez más.

En definitiva, FastRTC resuelve un problema clásico de la tecnología: las capacidades potentes a menudo no se utilizan hasta que se vuelven accesibles para los desarrolladores convencionales. Al simplificar lo que antes era complejo, Hugging Face ha eliminado uno de los últimos obstáculos importantes que se interponían entre los sofisticados modelos de IA de hoy y las aplicaciones de voz del mañana.

Perspectivas diarias sobre casos de uso empresarial con VB Daily

Si desea impresionar a su jefe, VB Daily lo tiene cubierto. Le brindamos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que pueda compartir información y obtener el máximo retorno de la inversión.

Lea nuestra Política de privacidad

Gracias por suscribirse. Vea más boletines de VB aquí .

Se produjo un error.

venturebeat