Los desarrolladores dicen que GPT-5 es un conjunto de resultados mixtos

La semana pasada, cuando OpenAI lanzó GPT-5 , informó a los ingenieros de software que el modelo estaba diseñado para ser un "auténtico colaborador de programación " que destaca en la generación de código de alta calidad y la realización de tareas de software automatizadas o de agencia. Si bien la compañía no lo indicó explícitamente, OpenAI parecía estar atacando directamente a Claude Code de Anthropic , que se ha convertido rápidamente en la herramienta predilecta de muchos desarrolladores para la programación asistida por IA.
Sin embargo, los desarrolladores comentan a WIRED que GPT-5 ha tenido resultados dispares hasta el momento. Destaca en el razonamiento técnico y la planificación de tareas de codificación, pero algunos afirman que los nuevos modelos de razonamiento Opus y Sonnet de Anthropic aún producen mejor código. Dependiendo de la versión de GPT-5 que utilicen los desarrolladores (nivel bajo, medio o alto de verbosidad), el modelo puede ser más elaborado, lo que a veces genera líneas de código innecesarias o redundantes.
Algunos ingenieros de software también han criticado la forma en que OpenAI evaluó el rendimiento de GPT-5 en la codificación, argumentando que los puntos de referencia utilizados son engañosos. Una firma de investigación calificó un gráfico que OpenAI publicó, en el que se jactaba de las capacidades de GPT-5, de "crimen gráfico".
GPT-5 destaca en al menos un aspecto: varias personas señalaron que, en comparación con los modelos de la competencia, es una opción mucho más rentable. «En nuestras pruebas, GPT-5 es superado en gran medida por otros modelos de IA, pero es realmente económico», afirma Sayash Kapoor, estudiante de doctorado en informática e investigador de la Universidad de Princeton, coautor del libro AI Snake Oil .
Kapoor afirma que él y su equipo han estado realizando pruebas comparativas para evaluar las capacidades de GPT-5 desde que el modelo se lanzó al público la semana pasada. Señala que la prueba estándar que utiliza su equipo —que mide la capacidad de un modelo de lenguaje para escribir código que reproduzca los resultados de 45 artículos científicos— cuesta 30 dólares con GPT-5 configurado en un nivel de verbosidad medio. La misma prueba con Opus 4.1 de Anthropic cuesta 400 dólares. En total, Kapoor afirma que su equipo ha invertido unos 20.000 dólares en las pruebas de GPT-5 hasta la fecha.
Aunque el GPT-5 es económico, las pruebas de Kapoor indican que el modelo también es menos preciso que algunos de sus competidores. El modelo premium de Claude alcanzó una precisión del 51 %, medida según la cantidad de artículos científicos que reprodujo con precisión. La versión mediana del GPT-5 obtuvo una precisión del 27 %. (Kapoor aún no ha realizado la misma prueba con el GPT-5 de alta resolución, por lo que se trata de una comparación indirecta, dado que Opus 4.1 es el modelo más potente de Anthropic).
La portavoz de OpenAI, Lindsay McCallum, remitió a WIRED a su blog, donde se afirma que entrenó a GPT-5 en tareas de programación reales en colaboración con testers de startups y empresas. La compañía también destacó algunas de sus mediciones internas de precisión para GPT-5, que mostraron que el modelo de pensamiento de GPT-5, que realiza un razonamiento más deliberado, obtuvo la mayor precisión entre todos los modelos de OpenAI. Sin embargo, el modelo principal de GPT-5 seguía estando por debajo de los modelos publicados anteriormente en la propia escala de precisión de OpenAI.
Amie Rotherham, portavoz de Anthropic, declaró: «Las afirmaciones sobre el rendimiento y los modelos de precios suelen ser diferentes una vez que los desarrolladores empiezan a usarlos en entornos de producción. Dado que los modelos de razonamiento pueden usar rápidamente muchos tokens mientras piensan, la industria se está moviendo hacia un mundo donde el precio por resultado importa más que el precio por token».
Algunos desarrolladores afirman haber tenido experiencias mayormente positivas con GPT-5 hasta la fecha. Jenny Wang, ingeniera, inversora y creadora del agente de estilismo personal Alta, declaró a WIRED que el modelo parece ser mejor que otros modelos para completar tareas de codificación complejas de una sola vez. Lo comparó con o3 y 4o de OpenAI, que utiliza con frecuencia para la generación de código y soluciones sencillas, "como el formateo, o si quiero crear un punto final de API similar al que ya tengo", afirma Wang.
En sus pruebas con GPT-5, Wang afirma que le pidió al modelo que generara código para una página de prensa para el sitio web de su empresa, incluyendo elementos de diseño específicos que armonizaran con la estética del resto del sitio. GPT-5 completó la tarea en una sola toma, mientras que antes, Wang habría tenido que revisar sus indicaciones durante el proceso. Sin embargo, hubo un error significativo: "Alucinaba con las URL", afirma Wang.
Otro desarrollador, que habló bajo condición de anonimato porque su empleador no lo autorizó a hablar con la prensa, dice que GPT-5 se destaca en la solución de problemas técnicos profundos.
El proyecto actual del desarrollador consiste en desarrollar una herramienta de análisis programático de redes que requiera aislamiento de código por motivos de seguridad. "Básicamente, presenté mi proyecto y algunas rutas que estaba considerando, y GPT-5 lo analizó todo y me ofreció algunas recomendaciones junto con un cronograma realista", explica el desarrollador. "Estoy impresionado".
Varios socios y clientes empresariales de OpenAI, como Cursor, Windsurf y Notion, han avalado públicamente las capacidades de codificación y razonamiento de GPT-5. (OpenAI incluyó muchas de estas observaciones en su propiaentrada de blog donde anunció el nuevo modelo). Notion también compartió en X que es «rápido, exhaustivo y gestiona trabajos complejos un 15 % mejor que otros modelos que hemos probado».
Pero a los pocos días del lanzamiento de GPT-5, algunos desarrolladores comenzaron a quejarse en línea. Muchos afirmaban que la capacidad de programación de GPT-5 parecía estar por debajo de lo que se suponía que sería un modelo de vanguardia y ultracapaz de la empresa de IA más prometedora del mundo.
“El GPT-5 de OpenAI es muy bueno, pero parece algo que se habría lanzado hace un año”, afirma Kieran Klassen, desarrollador que ha estado desarrollando un asistente de IA para bandejas de entrada de correo electrónico. “Sus capacidades de programación me recuerdan a Sonnet 3.5”, añade, refiriéndose a un modelo antrópico que se lanzó en junio de 2024.
Amir Salihefendić, fundador de la startup Doist, comentó en redes sociales que ha estado usando GPT-5 en Cursor y que le ha resultado "bastante decepcionante" y que "es especialmente malo para programar". Comentó que el lanzamiento de GPT-4 le pareció un "momento Llama 4", en referencia al modelo de IA de Meta, que también ha decepcionado a algunos miembros de la comunidad de IA.
En X, el desarrollador Mckay Wrigley escribió que GPT-5 es un "modelo de chat cotidiano fenomenal", pero cuando se trata de codificación, "seguiré usando Claude Code + Opus".
Otros desarrolladores describen GPT-5 como "exhaustivo": útil a veces, pero a menudo irritante por su prolijidad. Wang, quien en general se mostró satisfecha con el proyecto de programación frontend que asignó a GPT-5, afirma haber notado que el modelo era "más redundante. Claramente, podría haber encontrado una solución más clara y concisa". (Kapoor señala que la verbosidad de GPT-5 se puede ajustar, de modo que los usuarios puedan pedirle que sea menos verboso o incluso que razone menos a cambio de un mejor rendimiento o un precio más bajo).
Itamar Friedman, cofundador y director ejecutivo de Qodo, la plataforma de codificación de IA, cree que algunas de las críticas a GPT-5 se deben a la evolución de las expectativas en torno a los lanzamientos de modelos de IA. «Creo que mucha gente pensaba que GPT-5 sería otro momento en el que todo en IA mejoraría, gracias a este avance hacia la IAG. Cuando en realidad, el modelo mejoró en algunas subtareas clave», afirma.
Friedman se refiere al período anterior a 2022 como "AEC" (antes de la era ChatGPT), cuando los modelos de IA mejoraron holísticamente. En la era posterior a ChatGPT, los nuevos modelos de IA suelen ser mejores en ciertas áreas. "Claude Sonnet 3.5, por ejemplo, fue el único modelo que los dominó en cuanto a codificación. Y Google Gemini se volvió muy bueno en la revisión de código, para comprobar si el código es de alta calidad", afirma Friedman.
OpenAI también ha recibido críticas por la metodología empleada para ejecutar sus pruebas de referencia y realizar afirmaciones sobre el rendimiento de GPT-5, aunque las pruebas de referencia varían considerablemente en la industria. SemiAnalysis, una firma de investigación especializada en el sector de semiconductores e IA, señaló que OpenAI solo ejecutó 477 de las 500 pruebas que suelen incluirse en SWE-bench , un marco de trabajo relativamente nuevo en la industria de la IA para probar modelos de lenguaje extensos. (Esto se refería al rendimiento general del modelo, no solo a la codificación).
OpenAI afirma que siempre prueba sus modelos de IA en un subconjunto fijo de 477 tareas, en lugar de las 500 de la prueba SWE-bench, porque estas 477 pruebas son las que la empresa ha validado en su infraestructura interna. McCallum también mencionó la tarjeta de sistema de GPT-5 , que indicaba que los cambios en la configuración de verbosidad del modelo pueden provocar variaciones en el rendimiento de la evaluación.
Kapoor afirma que las empresas de IA de vanguardia se enfrentan, en última instancia, a difíciles disyuntivas. «Cuando los desarrolladores de modelos entrenan nuevos modelos, también introducen nuevas restricciones y deben considerar muchos factores: cómo esperan los usuarios que se comporte la IA y cómo se desempeña en ciertas tareas como la codificación agencial, todo ello a la vez que gestionan el coste», afirma. «En cierto sentido, creo que OpenAI sabía que no superaría todos esos parámetros, así que creó algo que, en general, complacería a un público amplio».
wired