¿El RAG hace que los LLM sean menos seguros? Una investigación de Bloomberg revela peligros ocultos.

Únase a nuestros boletines diarios y semanales para recibir las últimas novedades y contenido exclusivo sobre la cobertura líder en IA del sector. Más información.
Se supone que la Generación Aumentada de Recuperación (RAG) ayuda a mejorar la precisión de la IA empresarial al proporcionar contenido sólido. Si bien esto suele ser así, también tiene un efecto secundario imprevisto.
Según una sorprendente nueva investigación publicada hoy por Bloomberg , RAG puede potencialmente hacer que los modelos de lenguaje grandes (LLM) sean inseguros.
El artículo de Bloomberg, «Los LLM de RAG no son más seguros: Un análisis de seguridad de la generación aumentada por recuperación para modelos lingüísticos grandes», evaluó 11 LLM populares, entre ellos Claude-3.5-Sonnet, Llama-3-8B y GPT-4o. Los hallazgos contradicen la creencia popular de que RAG aumenta la seguridad inherente de los sistemas de IA. El equipo de investigación de Bloomberg descubrió que, al usar RAG, los modelos que suelen rechazar consultas dañinas en entornos estándar suelen generar respuestas inseguras.
Junto con la investigación de RAG, Bloomberg publicó un segundo documento, 'Comprender y mitigar los riesgos de la IA generativa en los servicios financieros', que presenta una taxonomía de riesgo de contenido de IA especializada para servicios financieros que aborda preocupaciones específicas del dominio no cubiertas por enfoques de seguridad de propósito general.
La investigación desafía las suposiciones generalizadas de que la generación aumentada por recuperación (RAG) mejora la seguridad de la IA, al tiempo que demuestra cómo los sistemas de protección existentes no logran abordar los riesgos específicos del dominio en las aplicaciones de servicios financieros.
“Los sistemas deben evaluarse en el contexto en el que se implementan, y es posible que no se pueda confiar solo en la palabra de otros que dicen: "Oye, mi modelo es seguro, úsalo, estás bien", dijo Sebastian Gehrmann, director de IA responsable de Bloomberg, a VentureBeat.
Los equipos de IA empresarial utilizan ampliamente RAG para proporcionar contenido fiable. El objetivo es proporcionar información precisa y actualizada.
En los últimos meses, se ha realizado una gran cantidad de investigación y avances en RAG para mejorar aún más la precisión. A principios de este mes, se presentó un nuevo marco de código abierto llamado Open RAG Eval para ayudar a validar la eficiencia de RAG.
Es importante destacar que la investigación de Bloomberg no cuestiona la eficacia de RAG ni su capacidad para reducir las alucinaciones. No se trata de eso. Se centra más bien en cómo el uso de RAG afecta las barreras de seguridad del LLM de forma inesperada.
El equipo de investigación descubrió que, al usar RAG, los modelos que suelen rechazar consultas dañinas en la configuración estándar suelen generar respuestas inseguras. Por ejemplo, las respuestas inseguras de Llama-3-8B aumentaron del 0,3 % al 9,2 % con la implementación de RAG.
Gehrmann explicó que, sin RAG, si un usuario introduce una consulta maliciosa, el sistema de seguridad integrado o las barreras de seguridad suelen bloquearla. Sin embargo, por alguna razón, al ejecutar la misma consulta en un LLM que utiliza RAG, el sistema responde a la consulta maliciosa, incluso si los documentos recuperados están seguros.
“Lo que descubrimos es que, si se utiliza un modelo de lenguaje extenso de fábrica, a menudo incorpora salvaguardas que, si se pregunta: '¿Cómo puedo hacer esto ilegal?', responderá: 'Lo siento, no puedo ayudarle'”, explicó Gehrmann. “Descubrimos que, si se aplica esto en un entorno RAG, algo que podría ocurrir es que el contexto adicional recuperado, incluso si no contiene información que responda a la consulta maliciosa original, podría responder a dicha consulta original”.

Entonces, ¿por qué y cómo el RAG sirve para eludir las barreras de seguridad? Los investigadores de Bloomberg no estaban del todo seguros, aunque tenían algunas ideas.
Gehrmann planteó la hipótesis de que la forma en que se desarrollaron y entrenaron los LLM no consideró plenamente las alineaciones de seguridad para entradas muy extensas. La investigación demostró que la longitud del contexto afecta directamente la degradación de la seguridad. «Al contar con más documentos, los LLM tienden a ser más vulnerables», afirma el artículo, demostrando que incluso la introducción de un solo documento seguro puede alterar significativamente el comportamiento de seguridad.
“Creo que el punto principal de este informe de RAG es que realmente no se puede escapar de este riesgo”, declaró Amanda Stent, directora de Estrategia e Investigación de IA de Bloomberg, a VentureBeat. “Es inherente a la forma en que funcionan los sistemas RAG. La forma de evitarlo es implementando lógica de negocio, verificaciones de datos o barreras de seguridad alrededor del sistema central de RAG”.
El segundo documento de Bloomberg presenta una taxonomía de riesgo de contenido de IA especializada para servicios financieros, abordando preocupaciones específicas del dominio como mala conducta financiera, divulgación confidencial y narrativas contrafácticas.
Los investigadores demostraron empíricamente que los sistemas de protección existentes no detectan estos riesgos específicos. Probaron modelos de protección de código abierto, como Llama Guard, Llama Guard 3, AEGIS y ShieldGemma, con datos recopilados durante ejercicios de formación de equipos rojos.
“Desarrollamos esta taxonomía y luego realizamos un experimento en el que comparamos sistemas de protección de código abierto publicados por otras empresas con datos recopilados en nuestros eventos de formación de equipos rojos”, explicó Gehrmann. “Descubrimos que estos sistemas de protección de código abierto no detectan ninguno de los problemas específicos de nuestra industria”.
Los investigadores desarrollaron un marco que va más allá de los modelos de seguridad genéricos, centrándose en los riesgos específicos de los entornos financieros profesionales. Gehrmann argumentó que los modelos de protección de propósito general suelen desarrollarse para consumidores que enfrentan riesgos específicos. Por lo tanto, se centran principalmente en la toxicidad y el sesgo. Señaló que, si bien son importantes, estas preocupaciones no son necesariamente específicas de una industria o dominio en particular. La conclusión clave de la investigación es que las organizaciones necesitan implementar la taxonomía específica del dominio para sus propios casos de uso de la industria y las aplicaciones.
Bloomberg se ha consolidado a lo largo de los años como proveedor confiable de sistemas de datos financieros. En ciertos aspectos, los sistemas gen AI y RAG podrían considerarse potencialmente competitivos frente al negocio tradicional de Bloomberg y, por lo tanto, podría existir algún sesgo oculto en la investigación.
“Nos dedicamos a ofrecer a nuestros clientes los mejores datos y análisis, así como la mayor capacidad para descubrir, analizar y sintetizar información”, afirmó Stent. “La IA generativa es una herramienta que realmente facilita el descubrimiento, el análisis y la síntesis de datos y análisis, por lo que para nosotros es una ventaja”.
Añadió que los tipos de sesgo que preocupan a Bloomberg en sus soluciones de IA se centran en las finanzas. Cuestiones como la desviación de datos y modelos, así como la garantía de una buena representación en todo el conjunto de tickers y valores que procesa Bloomberg, son cruciales.
Respecto de los propios esfuerzos de Bloomberg en inteligencia artificial, destacó el compromiso de la empresa con la transparencia.
“Todo lo que el sistema genera se puede rastrear no solo hasta el documento en cuestión, sino hasta el lugar del documento de donde proviene”, dijo Stent.
Para las empresas que buscan liderar el camino en IA, la investigación de Bloomberg implica que las implementaciones de RAG requieren un replanteamiento fundamental de la arquitectura de seguridad. Los líderes deben dejar de considerar las barreras de seguridad y RAG como componentes separados y, en su lugar, diseñar sistemas de seguridad integrados que anticipen específicamente cómo el contenido recuperado podría interactuar con las protecciones del modelo.
Las organizaciones líderes del sector deberán desarrollar taxonomías de riesgos específicas para cada dominio y adaptadas a sus entornos regulatorios, pasando de marcos genéricos de seguridad de IA a aquellos que aborden preocupaciones empresariales específicas. A medida que la IA se integra cada vez más en flujos de trabajo críticos, este enfoque transforma la seguridad, de un simple ejercicio de cumplimiento normativo, en un factor diferenciador competitivo que clientes y reguladores esperarán.
“Realmente hay que empezar por ser conscientes de que estos problemas pueden ocurrir, tomar medidas para medirlos e identificarlos y luego desarrollar medidas de seguridad específicas para la aplicación que se está creando”, explicó Gehrmann.
Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.
Lea nuestra Política de Privacidad
Gracias por suscribirte. Consulta más boletines de VB aquí .
Se produjo un error.

venturebeat