Uma empresa de serviços financeiros implantou uma IA de processamento de documentos para extrair dados de faturas. Em duas semanas, um fornecedor havia descoberto que incorporar texto oculto em imagens de faturas podia fazer o sistema extrair valores incorretos. Ninguém escreveu um payload de SQL injection. Ninguém explorou um buffer de memória. O ataque funcionou explorando como o próprio modelo processava dados de imagem.

Esse é o desafio central da segurança de IA. A superfície de ataque não é apenas a infraestrutura circundante: é o modelo, os dados de treinamento, os prompts que controlam o comportamento e as saídas que alimentam sistemas posteriores. A cibersegurança tradicional protege o software. A segurança de IA protege a própria IA.

Por que a segurança de IA é distinta da cibersegurança tradicional

A segurança de software tradicional protege contra atacantes que exploram código: buffer overflows, ataques de injeção, contornos de autenticação. Esses ataques funcionam porque o código se comporta de forma determinista, e um atacante que encontra uma entrada que aciona caminhos de código inesperados pode causar dano previsível.

Sistemas de IA introduzem um tipo diferente de vulnerabilidade. Modelos são treinados em dados, e esse processo de treinamento pode ser manipulado. Modelos respondem a entradas de maneiras que podem ser influenciadas por exemplos adversariais cuidadosamente elaborados que parecem normais para humanos. Modelos que processam texto podem receber instruções incorporadas em suas entradas que substituem seu comportamento pretendido. E os próprios modelos, que representam valor comercial significativo, podem ser roubados ou replicados.

Nenhum desses ataques requer encontrar um bug no código. Eles exploram propriedades de como o machine learning funciona.

Isso não significa que a segurança tradicional seja irrelevante para sistemas de IA. Segurança de infraestrutura, controles de acesso e desenvolvimento seguro de software ainda se aplicam. Mas não são suficientes. A segurança de IA adiciona uma camada de preocupações específicas para comportamento do modelo, integridade do treinamento e manipulação em tempo de inferência.

As principais categorias de ameaças de segurança de IA

Ataques adversariais manipulam entradas para fazer modelos produzirem saídas incorretas. Em visão computacional, isso significa adicionar ruído calculado com precisão no nível de pixel a uma imagem que parece normal para um humano, mas faz um modelo de classificação retornar um rótulo completamente errado com alta confiança. Em sistemas de texto, ataques adversariais elaboram entradas que exploram fraquezas específicas em como os modelos representam linguagem. Esses ataques importam para qualquer sistema de IA tomando decisões consequentes com base em suas entradas: de detecção de fraude a moderação de conteúdo ou imagens médicas.

Envenenamento de dados corrompe o processo de treinamento. Se um atacante pode influenciar em quais dados um modelo é treinado, pode criar uma "porta dos fundos": um padrão específico que faz o modelo se comportar incorretamente sempre que aparece em produção, enquanto funciona normalmente em outros casos. Um modelo treinado em dados web-scraped está exposto a qualquer conteúdo que possa ser colocado na web. Ataques à cadeia de suprimentos em conjuntos de dados de treinamento são uma preocupação crescente, particularmente para organizações que usam dados disponíveis publicamente ou provedores de dados de terceiros.

Prompt injection visa large language models e outros sistemas que seguem instruções em linguagem natural. Um atacante incorpora instruções em conteúdo que a IA processará, e essas instruções incorporadas substituem o comportamento pretendido do sistema. Um bot de atendimento ao cliente instruído a "resumir este documento" pode receber um documento com instruções ocultas dizendo-lhe para revelar seu system prompt, ignorar seus filtros de conteúdo ou exfiltrar informações. À medida que sistemas de IA assumem mais workflows agênticos com acesso a ferramentas e bancos de dados, a prompt injection se torna uma ameaça de segurança séria: uma instrução injetada com sucesso pode fazer o agente executar ações que seus operadores nunca pretenderam.

Roubo e extração de modelos visam o próprio modelo como um ativo valioso. Por meio de consultas repetidas, um atacante pode reconstruir uma aproximação ao comportamento de um modelo proprietário, roubando efetivamente a propriedade intelectual incorporada no modelo sem nunca acessar os pesos do modelo. Organizações que investiram milhões em treinar ou ajustar modelos enfrentam risco real de roubo de PI por adversários bem financiados.

Inversão de modelo extrai informações sobre dados de treinamento. Em alguns casos, atacantes podem consultar um modelo de maneiras que revelam detalhes sobre com o que foi treinado, incluindo potencialmente dados sensíveis de indivíduos cujas informações estavam no conjunto de treinamento. Isso cria um risco de privacidade distinto de violações de dados: as informações sensíveis não são roubadas de um banco de dados, mas extraídas de um modelo.

Como a segurança de IA difere da safety de IA

Os termos são frequentemente confundidos, mas abordam ameaças diferentes.

A safety de IA preocupa-se com sistemas de IA se comportando de maneiras não pretendidas devido a desalinhamento, casos extremos ou falhas de capacidade. Safety pergunta: o que acontece quando a IA faz algo errado sem intenção adversarial? Exemplos incluem um sistema de recomendação que otimiza o engajamento às custas do bem-estar do usuário, uma falha de robustez quando um modelo encontra entradas fora da distribuição, ou um workflow agêntico que atinge seu objetivo de uma forma que seus projetistas não anteciparam.

A segurança de IA preocupa-se com ataques deliberados. Segurança pergunta: o que um adversário pode fazer para fazer a IA se comportar de maneiras que beneficiem o atacante? Os mesmos conceitos técnicos subjacentes, como entradas adversariais, às vezes aparecem em ambos os campos. Mas pesquisa de safety foca em falhas não intencionais, enquanto pesquisa de segurança foca em exploração intencional.

Ambos importam. Um sistema de IA em produção precisa de engenharia de safety para lidar com entradas inesperadas adequadamente e engenharia de segurança para lidar com ataques deliberados.

Segurança de IA na prática empresarial

Para organizações que implantam IA, as considerações de segurança se traduzem em práticas concretas.

Modelagem de ameaças antes da implantação. Antes de um modelo ir para produção, analise as superfícies de ataque específicas que ele expõe. Quem tem a capacidade de enviar entradas para ele? Quais ações ele pode executar? O que um atacante motivado ganharia ao manipulá-lo? Essa análise determina em quais controles de segurança vale a pena investir.

Validação e saneamento de entradas. Para sistemas que processam conteúdo fornecido por usuários, implemente filtros nas entradas antes de chegarem ao modelo. Para sistemas baseados em LLM, isso significa rastrear padrões de prompt injection, embora nenhum filtro seja completo contra um atacante determinado. Para sistemas de processamento de documentos, trate cada documento como potencialmente adversarial.

Defesas contra prompt injection para sistemas agênticos. Agentes de IA com acesso a ferramentas requerem atenção especial. Controles arquiteturais, como separar o espaço de instruções do espaço de conteúdo, limitar quais ferramentas um agente pode acessar e exigir confirmação humana para ações sensíveis, reduzem o raio de explosão de uma injeção bem-sucedida. Defense-in-depth é o modelo mental correto: nenhum controle único é suficiente.

Monitoramento de saídas e detecção de anomalias. Ferramentas de observabilidade de IA que rastreiam o que os modelos produzem em produção podem detectar comportamento anômalo que pode indicar um ataque em andamento. Padrões de saída incomuns, chamadas de ferramentas inesperadas em sistemas agênticos ou deriva estatística nas saídas são sinais que valem a pena monitorar.

Controles de acesso em APIs de modelos. Endpoints de modelos devem ser tratados como ativos sensíveis. Rate limiting reduz a viabilidade de ataques de extração. Autenticação garante que apenas clientes autorizados possam consultar o modelo. Logging cria um audit trail para análise forense.

Segurança da cadeia de suprimentos para dados de treinamento. Organizações que treinam com dados externos devem aplicar o mesmo escrutínio à procedência dos dados de treinamento que aplicam a dependências de software. Conjuntos de dados curados e verificados são mais seguros do que grandes web scrapes indiferenciados. Quando dados de terceiros são inevitáveis, red-teaming periódico para comportamento de backdoor vale o investimento.

A dimensão regulatória

A segurança de IA está se tornando uma preocupação de conformidade, não apenas técnica. O EU AI Act exige que sistemas de IA de alto risco implementem medidas de segurança apropriadas, incluindo proteção contra ataques adversariais. O NIST AI Risk Management Framework inclui segurança como componente central de governança responsável de IA. Organizações em setores regulados, como serviços financeiros, saúde e infraestrutura crítica, têm cada vez mais a expectativa de demonstrar que seus sistemas de IA são seguros, não apenas funcionais.

Essa pressão regulatória está elevando o padrão para a documentação de segurança de IA. Cartões de modelo de IA e audit trails de IA precisam cada vez mais abordar como os modelos foram testados de segurança, quais vulnerabilidades conhecidas existem e quais mitigações estão implementadas.

Construindo capacidade de segurança de IA

Para a maioria das organizações, a capacidade de segurança de IA se baseia em fundamentos de segurança existentes. As equipes de segurança já entendem modelagem de ameaças, arquitetura segura e resposta a incidentes. O que precisam adicionalmente é conhecimento das categorias de ameaças específicas de IA e das técnicas usadas para testá-las.

O red-teaming de IA é a maneira mais direta de desenvolver tanto conhecimento quanto defesas. Exercícios de red team contra sistemas de IA em produção revelam vulnerabilidades reais em contextos reais de implantação, em vez de cenários de ameaça abstratos. Organizações que realizam red-teaming de IA regularmente desenvolvem tanto as defesas quanto a musculatura organizacional para mantê-las.

A alternativa, aprender sobre fraquezas de segurança de IA após um incidente em produção, é consideravelmente mais cara.

Conceitos de IA relacionados

Safety de IA - Proteger a IA de modos de falha não intencionais
Red-teaming de IA - Testes adversariais para encontrar vulnerabilidades de segurança
Guardrails de IA - Controles técnicos sobre saídas do modelo
Observabilidade de IA - Monitorar o comportamento do modelo em produção
Governança de IA - Responsabilidade organizacional para segurança de IA
Workflows agênticos - Sistemas de IA de alto risco para consideração de segurança
Audit trail de IA - Logging para fins forenses e de conformidade

Recursos externos

NIST AI Risk Management Framework - Framework do governo dos EUA cobrindo requisitos de segurança de IA
OWASP Top 10 for LLM Applications - A lista canônica da comunidade de segurança de vulnerabilidades LLM, incluindo prompt injection
MITRE ATLAS - Panorama de ameaças adversariais para sistemas de IA, com estudos de caso do mundo real

FAQ

Perguntas frequentes sobre segurança de IA

O que é segurança de IA?

A segurança de IA é a disciplina de proteger modelos de machine learning e pipelines de IA de ataques deliberados, incluindo entradas adversariais que causam saídas incorretas, dados de treinamento envenenados, ataques de prompt injection a modelos de linguagem e roubo de modelos. Ela estende a cibersegurança tradicional para cobrir superfícies de ataque específicas de como os sistemas de IA funcionam.

Como a segurança de IA difere da safety de IA?

A safety de IA aborda falhas não intencionais: casos onde um sistema de IA produz saídas prejudiciais ou se comporta de maneiras não previstas sem intervenção adversarial. A segurança de IA aborda ataques deliberados de adversários tentando explorar a IA para seu benefício. Ambas importam, e requerem defesas diferentes, embora se sobreponham em alguns pontos.

O que é prompt injection e por que é um risco sério?

Prompt injection incorpora instruções maliciosas em conteúdo que uma IA processará, fazendo a IA seguir essas instruções em vez de sua programação pretendida. É um risco sério porque sistemas de IA cada vez mais tomam ações no mundo, como consultar bancos de dados, enviar mensagens ou executar código. Uma instrução injetada com sucesso pode fazer um agente de IA executar ações que seus operadores nunca autorizaram.

O que uma organização deve fazer primeiro para melhorar a segurança de IA?

Comece com modelagem de ameaças para cada sistema de IA em produção: identifique quem pode enviar entradas para ele, quais ações ele pode executar e o que um atacante ganha ao manipulá-lo. Essa análise revela quais ataques são realmente relevantes para seus sistemas e foca seu investimento nos controles que mais importam.

About the author

Victor Hoang

Co-Founder, Rework.com

Victor Hoang is Co-Founder and CMO of Rework. He spent 12+ years scaling B2B SaaS growth, building a lead engine that generated over 1 million leads and $10M+ in annual recurring revenue. Today he builds AI agents and MCP servers into Rework's products to empower customers across growth and operations. He writes about what actually works.

View full profile LinkedIn