Neurocientíficos y un preso hackean la IA de Microsoft antes de que la veas

Brad Smith, presidente de Microsoft, hace una pausa antes de responder. En medio de un encuentro sobre innovación en la sede de la compañía en Redmond (EE UU), al que han sido invitados medios internacionales, incluido EL PAÍS, aborda con calma una pregunta compleja: ¿cómo decide Microsoft si su inteligencia artificial puede usarse en contextos bélicos? El tema está en plena discusión tras la demanda presentada por Anthropic contra el Pentágono por vetar su tecnología, y Microsoft no es ajena al debate. De hecho, la compañía respalda a Anthropic. Hace apenas tres años, el Pentágono canceló un contrato de 10.000 millones de dólares con Microsoft tras protestas internas de empleados. “Tenemos principios, los definimos y los publicamos. Por definición, esos principios crean guardarraíles. Y nos mantenemos en la carretera dentro de ellos. No se trata solo de cuándo debemos usar la tecnología, sino también de cuándo no debemos usarla”, responde Smith.

El equipo que rompe para proteger
Detrás de esos principios hay un equipo poco convencional: el “equipo rojo” o red team. Formado en 2018, fue pionero en aplicar una estrategia heredada de los ejércitos —simular ataques para encontrar debilidades— al campo de la inteligencia artificial generativa. Su misión es hackear los propios productos de Microsoft antes de que se lancen al mercado. “Antes de que un producto salga, los equipos rojos lo rompen para que otros puedan reconstruirlo más sólido y seguro”, explica Ram Shankar Siva Kumar, líder del equipo y quien se define como un “cowboy de datos”. La IA, advierte, puede fallar de múltiples formas: desde comprometer la seguridad hasta causar daños psicosociales. “La gente usa Copilot en momentos de gran vulnerabilidad. Ver cómo podrían fallar estos sistemas antes de que lleguen al usuario es fundamental”, añade.
Este grupo ha analizado ya más de 100 productos de la compañía. Aunque Microsoft no revela el número de integrantes ni detalles sobre productos bloqueados, asegura que el equipo tiene autoridad para detener lanzamientos. “Ningún sistema de IA de alto riesgo se implementa sin una prueba independiente. Si identificamos riesgos graves que no se han mitigado, el producto no se lanza hasta que se resuelvan”, insiste Kumar.
Principios concretos, herramientas prácticas

- Equidad
- Responsabilidad
- Transparencia
- Confiabilidad y seguridad
- Inclusión
- Privacidad y seguridad
Estos son los seis principios que guían al equipo. Pero convertirlos en acción diaria requiere más que declaraciones. “Si le das a un ingeniero un documento de cincuenta páginas, se abruma. Por eso creamos Pyrit, una herramienta de código abierto que usamos internamente y luego compartimos con el mundo, porque creemos en la salud del ecosistema”, explica Kumar. La diversidad del equipo también es clave: incluye neurocientíficos, lingüistas, especialistas en ciberseguridad, veteranos militares y hasta una persona con pasado carcelario que logró su rehabilitación. Hablan 17 idiomas, entre ellos dialectos del francés, mongol, tailandés y coreano. “Queremos que la IA no falle en ningún rincón del planeta”, dice Kumar.
Simulaciones extremas y aprendizaje automático
Tori Westerhoff, co-líder del equipo y especialista en neurociencia cognitiva y estrategia de seguridad nacional, describe el proceso: “Emulamos lo que podría salir mal en los extremos del uso de la tecnología. Profundizamos en cómo usar el producto como se espera y también de formas no previstas, para encontrar los casos más extremos y ayudar al equipo de producto a mitigarlos antes de que alguien los explote en el mundo real”.
Un ejemplo reciente fue el análisis de GPT-5, el modelo de OpenAI (socio de Microsoft) lanzado en agosto. El equipo rojo entrenó otra IA para que atacara automáticamente al sistema, generando más de dos millones de conversaciones-trampa con Pyrit. “Era como en *Inception*: una IA intentando engañar a otra, sin parar, durante días. Encontrar esos fallos manualmente sería imposible”, comenta Kumar.
Los límites de la automatización
A pesar del poder de las herramientas automatizadas, los líderes del equipo son claros: hay aspectos que solo los humanos pueden juzgar. “El red teaming solo puede automatizarse hasta cierto punto. Solo una persona puede decir si una respuesta de IA le resulta incómoda o sesgada”, afirman Kumar, Westerhoff y Daniel Krutz, director de la oficina de IA Responsable de Microsoft. Tres áreas requieren necesariamente intervención humana:
- Evaluación de riesgos en campos sensibles como la medicina o la seguridad.
- Consideración de diferencias lingüísticas, culturales y políticas en distintos lugares de lanzamiento.
- Inteligencia emocional: solo los humanos pueden anticipar cómo afectarán ciertas respuestas a usuarios reales en contextos específicos.
Incluso si un modelo supera todas las pruebas automatizadas, puede generar respuestas que perturben a una persona en una situación vulnerable. “La IA responsable no es un filtro final, sino una parte fundacional del proceso de desarrollo”, subraya Kumar. Es una filosofía que coincide con la visión de Mustafa Suleyman, CEO de Microsoft AI y cofundador de DeepMind, quien escribió recientemente en *Nature* que “una IA aparentemente consciente puede convertirse en un arma”. Para él, los sistemas deben estar claramente subordinados a los humanos: “Los agentes de IA no deberían tener más derechos ni libertades que mi portátil”.
Los “guardarraíles” de Smith, entonces, no son frenos al progreso, sino condiciones para avanzar con seguridad. Son límites que permiten ir rápido sin despeñarse. En un mundo donde la IA se entrelaza con la guerra, la salud y la vida cotidiana, Microsoft apuesta por una innovación que no solo sea potente, sino también profundamente examinada.

Deja una respuesta