Una empresa de servicios financieros desplegó una IA de procesamiento de documentos para extraer datos de facturas. En dos semanas, un proveedor había descubierto que incrustar texto oculto en imágenes de facturas podía causar que el sistema extrajera montos incorrectos. Nadie escribió un payload de SQL injection. Nadie explotó un buffer de memoria. El ataque funcionó explotando cómo el modelo mismo procesaba los datos de imagen.

Ese es el desafío central de la seguridad de IA. La superficie de ataque no es solo la infraestructura circundante, es el modelo, los datos de entrenamiento, los prompts que controlan el comportamiento y las salidas que alimentan los sistemas posteriores. La ciberseguridad tradicional protege el software. La seguridad de IA protege la IA misma.

Por qué la seguridad de IA es distinta de la ciberseguridad tradicional

La seguridad de software tradicional protege contra atacantes que explotan código: buffer overflows, ataques de inyección, elusión de autenticación. Estos ataques funcionan porque el código se comporta de manera determinista, y un atacante que encuentra una entrada que activa rutas de código inesperadas puede causar daño predecible.

Los sistemas de IA introducen un tipo diferente de vulnerabilidad. Los modelos se entrenan con datos, y ese proceso de entrenamiento puede ser manipulado. Los modelos responden a entradas de maneras que pueden ser influenciadas por ejemplos adversariales cuidadosamente elaborados que parecen normales para los humanos. Los modelos que procesan texto pueden recibir instrucciones incrustadas en sus entradas que anulan su comportamiento previsto. Y los modelos en sí mismos, que representan un valor comercial significativo, pueden ser robados o replicados.

Ninguno de estos ataques requiere encontrar un error en el código. Explotan propiedades de cómo funciona el machine learning.

Esto no significa que la seguridad tradicional sea irrelevante para los sistemas de IA. La seguridad de infraestructura, los controles de acceso y el desarrollo de software seguro siguen aplicando. Pero no son suficientes. La seguridad de IA añade una capa de preocupaciones específicas para el comportamiento del modelo, la integridad del entrenamiento y la manipulación en tiempo de inferencia.

Las principales categorías de amenazas de seguridad de IA

Los ataques adversariales manipulan entradas para causar que los modelos produzcan salidas incorrectas. En visión por computadora, esto significa añadir ruido cuidadosamente calculado a nivel de pixel a una imagen que parece normal para un humano pero que hace que un modelo de clasificación devuelva una etiqueta completamente incorrecta con alta confianza. En sistemas de texto, los ataques adversariales elaboran entradas que explotan debilidades específicas en cómo los modelos representan el lenguaje. Estos ataques importan para cualquier sistema de IA que tome decisiones consecuentes basadas en sus entradas: desde detección de fraude hasta moderación de contenido o imágenes médicas.

El envenenamiento de datos corrompe el proceso de entrenamiento. Si un atacante puede influir en qué datos se entrena un modelo, puede crear una "puerta trasera": un patrón específico que hace que el modelo se comporte incorrectamente cada vez que aparece en producción, mientras funciona normalmente en otros casos. Un modelo entrenado en datos web-scraped está expuesto a cualquier contenido que pueda colocarse en la web. Los ataques a la cadena de suministro en conjuntos de datos de entrenamiento son una preocupación creciente, particularmente para organizaciones que usan datos públicamente disponibles o proveedores de datos de terceros.

La prompt injection apunta a modelos de lenguaje grande y otros sistemas que siguen instrucciones en lenguaje natural. Un atacante incrusta instrucciones en contenido que la IA procesará, y esas instrucciones incrustadas anulan el comportamiento previsto del sistema. Un bot de servicio al cliente al que se le dice "resume este documento" puede recibir un documento con instrucciones ocultas que le digan que en cambio revele su system prompt, ignore sus filtros de contenido o exfiltre información. A medida que los sistemas de IA asumen más workflows agénticos con acceso a herramientas y bases de datos, la prompt injection se convierte en una amenaza de seguridad seria: una instrucción inyectada con éxito puede causar que el agente tome acciones que sus operadores nunca pretendieron.

El robo y extracción de modelos apunta al modelo mismo como un activo valioso. A través de consultas repetidas, un atacante puede reconstruir una aproximación al comportamiento de un modelo propietario, robando efectivamente la propiedad intelectual incorporada en el modelo sin nunca acceder a los pesos del modelo. Las organizaciones que han invertido millones en entrenar o afinar modelos enfrentan un riesgo real de robo de PI por parte de adversarios bien financiados.

La inversión de modelo extrae información sobre los datos de entrenamiento. En algunos casos, los atacantes pueden consultar un modelo de maneras que revelan detalles sobre con qué fue entrenado, incluyendo potencialmente datos sensibles de personas cuya información estaba en el conjunto de entrenamiento. Esto crea un riesgo de privacidad distinto a las violaciones de datos: la información sensible no es robada de una base de datos, sino extraída de un modelo.

Cómo la seguridad de IA difiere de la safety de IA

Los términos se confunden frecuentemente, pero abordan amenazas diferentes.

La safety de IA se preocupa por los sistemas de IA que se comportan de maneras no previstas debido a desalineación, casos extremos o fallos de capacidad. Safety pregunta: ¿qué ocurre cuando la IA hace algo mal sin intención adversarial? Los ejemplos incluyen un sistema de recomendación que optimiza el engagement a expensas del bienestar del usuario, un fallo de robustez cuando un modelo encuentra entradas fuera de distribución, o un workflow agéntico que logra su objetivo de una manera que sus diseñadores no anticiparon.

La seguridad de IA se preocupa por ataques deliberados. Seguridad pregunta: ¿qué puede hacer un adversario para hacer que la IA se comporte de maneras que beneficien al atacante? Los mismos conceptos técnicos subyacentes, como las entradas adversariales, a veces aparecen en ambos campos. Pero la investigación de safety se enfoca en fallos no intencionales, mientras que la investigación de seguridad se enfoca en la explotación intencional.

Ambos importan. Un sistema de IA en producción necesita ingeniería de safety para manejar entradas inesperadas adecuadamente e ingeniería de seguridad para manejar ataques deliberados.

Seguridad de IA en la práctica empresarial

Para las organizaciones que despliegan IA, las consideraciones de seguridad se traducen en prácticas concretas.

Modelado de amenazas antes del despliegue. Antes de que un modelo vaya a producción, analice las superficies de ataque específicas que expone. ¿Quién tiene la capacidad de enviarle entradas? ¿Qué acciones puede tomar? ¿Qué ganaría un atacante motivado al manipularlo? Este análisis determina en qué controles de seguridad vale la pena invertir.

Validación y saneamiento de entradas. Para sistemas que procesan contenido proporcionado por usuarios, implemente filtros en las entradas antes de que lleguen al modelo. Para sistemas basados en LLM, esto significa filtrar patrones de prompt injection, aunque ningún filtro es completo contra un atacante determinado. Para sistemas de procesamiento de documentos, trate cada documento como potencialmente adversarial.

Defensas contra prompt injection para sistemas agénticos. Los agentes de IA con acceso a herramientas requieren atención especial. Los controles arquitectónicos, como separar el espacio de instrucciones del espacio de contenido, limitar a qué herramientas puede acceder un agente, y requerir confirmación humana para acciones sensibles, reducen el radio de explosión de una inyección exitosa. Defense-in-depth es el modelo mental correcto: ningún control único es suficiente.

Monitoreo de salidas y detección de anomalías. Las herramientas de observabilidad de IA que rastrean lo que los modelos producen en producción pueden detectar comportamiento anómalo que podría indicar un ataque en curso. Patrones de salida inusuales, llamadas a herramientas inesperadas en sistemas agénticos, o deriva estadística en salidas son señales que vale la pena monitorear.

Controles de acceso en APIs de modelos. Los endpoints de modelos deben tratarse como activos sensibles. El rate limiting reduce la viabilidad de los ataques de extracción. La autenticación asegura que solo los clientes autorizados puedan consultar el modelo. El logging crea un audit trail para análisis forense.

Seguridad de la cadena de suministro para datos de entrenamiento. Las organizaciones que entrenan con datos externos deben aplicar el mismo escrutinio a la procedencia de los datos de entrenamiento que aplican a las dependencias de software. Los conjuntos de datos curados y verificados son más seguros que los grandes web scrapes indiferenciados. Cuando los datos de terceros son inevitables, el red-teaming periódico para detectar comportamiento de backdoor vale la inversión.

La dimensión regulatoria

La seguridad de IA se está convirtiendo en una preocupación de cumplimiento, no solo técnica. El EU AI Act exige que los sistemas de IA de alto riesgo implementen medidas de seguridad apropiadas, incluyendo protección contra ataques adversariales. El NIST AI Risk Management Framework incluye la seguridad como componente central de la gobernanza responsable de IA. Las organizaciones en industrias reguladas, servicios financieros, salud, infraestructura crítica, tienen cada vez más la expectativa de demostrar que sus sistemas de IA son seguros, no solo funcionales.

Esta presión regulatoria está elevando el listón para la documentación de seguridad de IA. Las tarjetas de modelo de IA y los audit trails de IA necesitan abordar cada vez más cómo se ha probado la seguridad de los modelos, qué vulnerabilidades conocidas existen y qué mitigaciones están implementadas.

Construyendo capacidad de seguridad de IA

Para la mayoría de las organizaciones, la capacidad de seguridad de IA se construye sobre las bases de seguridad existentes. Los equipos de seguridad ya entienden el modelado de amenazas, la arquitectura segura y la respuesta a incidentes. Lo que necesitan adicionalmente es conocimiento de las categorías de amenazas específicas de IA y las técnicas usadas para probarlas.

El red-teaming de IA es la forma más directa de desarrollar tanto conocimiento como defensas. Los ejercicios de red team contra sistemas de IA en producción revelan vulnerabilidades reales en contextos de despliegue reales, en lugar de escenarios de amenaza abstractos. Las organizaciones que realizan red-teaming de IA de forma regular desarrollan tanto las defensas como la capacidad organizacional para mantenerlas.

La alternativa, conocer las debilidades de seguridad de IA después de un incidente en producción, es considerablemente más costosa.

Conceptos de IA relacionados

Safety de IA - Proteger la IA de modos de fallo no intencionales
Red-teaming de IA - Pruebas adversariales para encontrar vulnerabilidades de seguridad
Guardrails de IA - Controles técnicos sobre las salidas del modelo
Observabilidad de IA - Monitorear el comportamiento del modelo en producción
Gobernanza de IA - Responsabilidad organizacional para la seguridad de IA
Workflows agénticos - Sistemas de IA de alto riesgo para consideración de seguridad
Audit trail de IA - Logging para fines forenses y de cumplimiento

Recursos externos

NIST AI Risk Management Framework - Marco del gobierno de EE.UU. que cubre los requisitos de seguridad de IA
OWASP Top 10 for LLM Applications - La lista canónica de vulnerabilidades LLM de la comunidad de seguridad, incluyendo prompt injection
MITRE ATLAS - Panorama de amenazas adversariales para sistemas de IA, con estudios de caso del mundo real

FAQ

Preguntas frecuentes sobre seguridad de IA

¿Qué es la seguridad de IA?

La seguridad de IA es la disciplina de proteger modelos de machine learning y pipelines de IA de ataques deliberados, incluyendo entradas adversariales que causan salidas incorrectas, datos de entrenamiento envenenados, ataques de prompt injection a modelos de lenguaje y robo de modelos. Extiende la ciberseguridad tradicional para cubrir superficies de ataque específicas de cómo funcionan los sistemas de IA.

¿Cómo se diferencia la seguridad de IA de la safety de IA?

La safety de IA aborda fallos no intencionales: casos donde un sistema de IA produce salidas dañinas o se comporta de maneras no previstas sin intervención adversarial. La seguridad de IA aborda ataques deliberados de adversarios que intentan explotar la IA para su beneficio. Ambos importan, y requieren defensas diferentes, aunque se superponen en algunos lugares.

¿Qué es la prompt injection y por qué es un riesgo serio?

La prompt injection incrusta instrucciones maliciosas en contenido que una IA procesará, haciendo que la IA siga esas instrucciones en lugar de su programación prevista. Es un riesgo serio porque los sistemas de IA cada vez toman más acciones en el mundo, como consultar bases de datos, enviar mensajes o ejecutar código. Una instrucción inyectada con éxito puede hacer que un agente de IA tome acciones que sus operadores nunca autorizaron.

¿Qué debería hacer primero una organización para mejorar la seguridad de IA?

Comience con el modelado de amenazas para cada sistema de IA en producción: identifique quién puede enviarle entradas, qué acciones puede tomar y qué gana un atacante al manipularlo. Este análisis revela qué ataques son realmente relevantes para sus sistemas y enfoca su inversión en los controles que más importan.

About the author

Victor Hoang

Co-Founder, Rework.com

Victor Hoang is Co-Founder and CMO of Rework. He spent 12+ years scaling B2B SaaS growth, building a lead engine that generated over 1 million leads and $10M+ in annual recurring revenue. Today he builds AI agents and MCP servers into Rework's products to empower customers across growth and operations. He writes about what actually works.

View full profile LinkedIn