Una herramienta forense 'reanima' los 'cerebros' de las IA que no logran comprender qué salió mal

Desde drones que entregan suministros médicos hasta asistentes digitales que realizan tareas cotidianas, los sistemas impulsados por IA se integran cada vez más en la vida cotidiana. Los creadores de estas innovaciones prometen beneficios transformadores. Para algunas personas, aplicaciones comunes como ChatGPT y Claude pueden parecer magia. Pero estos sistemas no son mágicos ni infalibles; pueden fallar, y de hecho lo hacen, con frecuencia.
Los sistemas de IA pueden fallar debido a fallos de diseño técnico o datos de entrenamiento sesgados. También pueden presentar vulnerabilidades en su código, que pueden ser explotadas por hackers maliciosos. Identificar la causa de un fallo de IA es fundamental para reparar el sistema.
Pero los sistemas de IA suelen ser opacos, incluso para sus creadores. El reto reside en cómo investigarlos tras fallas o ataques. Existen técnicas para inspeccionarlos, pero requieren acceso a sus datos internos. Este acceso no está garantizado, especialmente para los investigadores forenses convocados para determinar la causa de un fallo en un sistema de IA propietario, lo que imposibilita la investigación.
Somos informáticos que estudiamos la ciencia forense digital. Nuestro equipo en el Instituto Tecnológico de Georgia ha desarrollado un sistema, AI Psychiatry (AIP), que puede recrear el escenario en el que una IA falló para determinar qué falló. El sistema aborda los desafíos de la ciencia forense de la IA recuperando y reanimando un modelo de IA sospechoso para que pueda probarse sistemáticamente.
Incertidumbre de la IAImagine que un coche autónomo se desvía de la carretera sin motivo aparente y luego se estrella. Los registros y datos de los sensores podrían sugerir que una cámara defectuosa provocó que la IA malinterpretara una señal de tráfico como una orden de desviarse. Tras un fallo crucial, como un accidente de vehículo autónomo , los investigadores deben determinar con exactitud la causa del error.
¿El fallo se debió a un ataque malicioso contra la IA? En este caso hipotético, el fallo de la cámara podría deberse a una vulnerabilidad de seguridad o un error en su software, explotado por un hacker. Si los investigadores encuentran dicha vulnerabilidad, deberán determinar si esta causó el fallo. Pero determinarlo no es tarea fácil.
Si bien existen métodos forenses para recuperar evidencia de fallos en drones, vehículos autónomos y otros sistemas ciberfísicos, ninguno puede obtener las pistas necesarias para investigar a fondo la IA de dicho sistema. Las IA avanzadas pueden incluso actualizar su toma de decisiones —y, en consecuencia, las pistas— continuamente, lo que imposibilita investigar los modelos más actualizados con los métodos existentes.
La psiquiatría de IA aplica una serie de algoritmos forenses para aislar los datos que sustentan la toma de decisiones del sistema de IA. Estos componentes se reensamblan para formar un modelo funcional con un rendimiento idéntico al del modelo original. Los investigadores pueden "reanimar" la IA en un entorno controlado y probarla con información maliciosa para determinar si presenta comportamientos dañinos u ocultos.
AI Psychiatry utiliza como entrada una imagen de memoria , una instantánea de los bits y bytes cargados cuando la IA estaba operativa. La imagen de memoria en el momento del accidente en el escenario del vehículo autónomo contiene pistas cruciales sobre el estado interno y los procesos de toma de decisiones de la IA que controla el vehículo. Con AI Psychiatry, los investigadores ahora pueden extraer el modelo exacto de la IA de la memoria, analizar sus bits y bytes y cargarlo en un entorno seguro para su análisis.
Nuestro equipo probó AI Psychiatry en 30 modelos de IA, 24 de los cuales fueron modificados intencionalmente para generar resultados incorrectos bajo desencadenantes específicos. El sistema logró recuperar, reubicar y probar todos los modelos, incluyendo modelos comunes en situaciones reales, como el reconocimiento de señales de tráfico en vehículos autónomos.
Hasta el momento, nuestras pruebas sugieren que la Psiquiatría con IA puede resolver eficazmente el misterio digital tras un fallo como un accidente de coche autónomo, que anteriormente habría dejado más preguntas que respuestas. Y si no encuentra una vulnerabilidad en el sistema de IA del coche, la Psiquiatría con IA permite a los investigadores descartar la IA y buscar otras causas, como una cámara defectuosa.
No sólo para vehículos autónomosEl algoritmo principal de AI Psychiatry es genérico: se centra en los componentes universales que todos los modelos de IA deben tener para tomar decisiones. Esto permite que nuestro enfoque sea fácilmente extensible a cualquier modelo de IA que utilice marcos de desarrollo de IA populares. Cualquiera que trabaje para investigar un posible fallo de IA puede usar nuestro sistema para evaluar un modelo sin necesidad de conocer previamente su arquitectura exacta.
Ya sea que la IA sea un bot que recomienda productos o un sistema que guía flotas de drones autónomos, AI Psychiatry puede recuperarla y reubicarla para su análisis. AI Psychiatry es completamente de código abierto para que cualquier investigador la utilice.
AI Psychiatry también puede ser una herramienta valiosa para realizar auditorías de sistemas de IA antes de que surjan problemas. Con la integración de sistemas de IA en sus flujos de trabajo por parte de agencias gubernamentales, desde las fuerzas del orden hasta los servicios de protección infantil, las auditorías de IA se están convirtiendo en un requisito de supervisión cada vez más común a nivel estatal. Con una herramienta como AI Psychiatry, los auditores pueden aplicar una metodología forense consistente en diversas plataformas e implementaciones de IA.
A largo plazo, esto generará dividendos significativos tanto para los creadores de sistemas de IA como para todos los afectados por las tareas que realizan.
David Oygenblik , estudiante de doctorado en Ingeniería Eléctrica e Informática, Instituto Tecnológico de Georgia , y Brendan Saltaformaggio , profesor asociado de Ciberseguridad y Privacidad, e Ingeniería Eléctrica e Informática, Instituto Tecnológico de Georgia.
Este artículo se republica de The Conversation bajo una licencia Creative Commons. Lea el artículo original .

gizmodo