Los sesgos en la IA también ponen en peligro la ciberseguridad


Que la inteligencia artificial está sujeta a sesgos es una afirmación que ya no sorprende a nadie. Estos algoritmos aprenden del mundo real, pero también heredan sus errores, prejuicios y desigualdades. Lo que sí empieza a inquietar es que estas distorsiones pueden tener consecuencias más allá de las respuestas incorrectas o los filtros fallidos. En el ámbito de la ciberseguridad, los sesgos en los modelos de IA pueden convertirse en una grieta peligrosa que facilite ataques, errores de detección o incluso discriminación hacia usuarios legítimos.
Una burbuja de datos que deja huecos en la defensa
Muchos modelos de IA se desarrollan sobre conjuntos de datos limitados, que reflejan únicamente ciertos patrones culturales, geográficos o tecnológicos. Este enfoque sesgado no solo afecta a decisiones éticas o sociales, también compromete la eficacia de los sistemas defensivos. Si una IA se entrena con registros de ciberataques típicos en redes empresariales estadounidenses, puede ser incapaz de reconocer amenazas que operan de forma distinta en América Latina, África o Asia.
Esto provoca un doble problema, por un lado, aumenta los falsos positivos, cuando se detectan amenazas donde no las hay, y por otro, los falsos negativos, cuando ataques reales pasan desapercibidos. El informe Effect of AI Algorithm Bias on the Accuracy of Cybersecurity Threat Detection ya advirtió en 2023 cómo un sistema de detección de botnets en dispositivos IoT podía ser burlado modificando solo un atributo del tráfico. La IA, engañada por datos manipulados, no veía la amenaza.
Los sesgos son aprovechados por los atacantes
Más allá de los fallos de percepción, los sesgos pueden ser explotados de forma activa por los ciberdelincuentes. Así lo ha alertado Hervé Lambert, responsable de operaciones de consumo global en Panda Security: “Los atacantes pueden estudiar las respuestas de una IA y manipularla para colapsarla con alertas falsas o esconder sus movimientos entre el ruido”. Se trata de un uso perverso de la lógica algorítmica que puede dejar fuera de juego a los sistemas de defensa más avanzados.
Técnicas como los poison attacks, que envenenan los datos de entrenamiento, o los evasion attacks, que modifican inputs para evitar la detección, comprometen la IA desde dentro. Este tipo de ataques no son nuevos, ya en 2004, los filtros bayesianos de spam fueron burlados añadiendo palabras comunes en correos maliciosos, logrando así que pasaran por legítimos. Esa táctica, lejos de haber desaparecido, sigue funcionando en los sistemas automáticos actuales.
Ejemplos recientes confirman los riesgos
En enero de 2025, la IA china DeepSeek sufrió una filtración masiva de datos por una mala configuración. Aunque no se debió directamente a un sesgo, el incidente ejemplifica cómo la ausencia de controles sólidos en los sistemas de inteligencia artificial puede desembocar en brechas críticas. Y es que, más allá del diseño algorítmico, es vital revisar cada fase del ciclo de vida de estas tecnologías: desde el desarrollo hasta el mantenimiento.
Proyectos como el europeo Charlie, liderado por la Universitat de les Illes Balears, o el estudio impulsado por el gobierno británico junto a Grant Thornton UK y Manchester Metropolitan University, ya trabajan para identificar y minimizar estos sesgos en escenarios de ciberseguridad. Analizan cómo la parcialidad puede introducirse en el sistema desde el inicio, afectando tanto al funcionamiento como a la fiabilidad de los modelos.
Soluciones que apuntan a una IA más justa
Reducir los sesgos en los algoritmos pasa por mejorar la calidad y diversidad de los datos. Incluir información de múltiples regiones, industrias, niveles de infraestructura y tipos de usuarios, desde grandes empresas hasta ONGs o redes domésticas, ayuda a construir modelos más completos. También es útil generar datasets sintéticos que simulen amenazas poco frecuentes o emergentes, como los deepfakes o los nuevos tipos de ransomware.
La validación de los modelos debe ir un paso más allá. El testing adversarial, por ejemplo, emplea ejemplos manipulados para poner a prueba los puntos ciegos del sistema. A esto se suma la necesidad de un aprendizaje continuo, que permita actualizar el conocimiento sin reiniciar el entrenamiento, y de auditorías humanas que supervisen decisiones críticas.
La clave está en no dejar toda la responsabilidad a la IA. Aunque los algoritmos pueden analizar grandes volúmenes de información con rapidez, es la intervención humana la que asegura que las decisiones no estén marcadas por la discriminación o el error sistemático. Solo así se podrá construir una inteligencia artificial verdaderamente útil, precisa y segura.