Prompt Injection explora vulnerabilidades de segurança baseadas em IA generativa onde a entrada maliciosa do usuário substitui as instruções originais do desenvolvedor em um comando.
O problema central decorre da incapacidade das arquiteturas de modelos atuais de distinguir entre instruções confiáveis e entradas não confiáveis do usuário.
Como a IA não consegue separar claramente instruções legítimas de maliciosas, ela pode responder ao comando injetado por invasores e expor dados confidenciais ou causar comportamentos indesejados.
“A injeção imediata representa uma mudança fundamental na forma como devemos pensar sobre segurança”, escreveu o diretor de segurança da informação da OpenAI, Dane Stuckey.
Ataques de injeção imediata são um fenômeno que surgiu nos últimos anos, juntamente com agentes de IA, e não há uma solução clara para preveni-los completamente.
Neste artigo, vamos entender mais sobre esse tipo de ataque, consequências e práticas para proteger os dados da sua organização de ataques maliciosos.
O que é prompt Injection?
Sobretudo, injeção de prompt é uma falha comum entre navegadores que incorporam agentes de IA.
A injeção direta ou imediata é um tipo de injeção de prompt onde as instruções inseridas diretamente na caixa de entrada de um modelo ignoram ou substituem as instruções existentes do sistema.
Ocorre quando um modelo ou agente de IA manipula conteúdo, como uma página da web ou imagem, e então trata esse conteúdo como se fosse parte de sua tarefa instruída.
Nesse contexto, o objetivo dos invasores pode variar entre manipular a opinião de um agente de IA e levá-lo a acessar e divulgar dados privados.
Por outro lado, nas injeções indiretas agentes ocultam instruções maliciosas em fontes de dados externas que a IA consome, como páginas da web ou documentos.
A implementação responsável de sistemas de IA generativa requer mitigação adequada, além de camadas específicas de segurança para suas aplicações, como:
- Filtragem e sanitização de prompts antes do envio ao modelo;
- Isolamento de contexto para evitar que dados sensíveis sejam compartilhados;
- Monitoramento contínuo e políticas DLP integradas.
Para mitigar o risco de injeção indireta de prompts, as organizações devem garantir higiene de dados, avaliar sistemas, treinar usuários e aplicar proteções técnicas.
Portanto, cada uma dessas estratégias desempenha um papel importante para garantir a segurança e a resiliência das ferramentas GenAI.
Riscos de segurança na IA generativa
O Centro Nacional de Segurança Cibernética (NCSC) do Reino Unido sinalizou a injeção imediata como um risco crítico, enquanto o Instituto Nacional de Padrões e Tecnologia dos EUA a descreveu como “a maior falha de segurança da IA generativa”.
Em busca de um melhor desempenho as empresas buscam incorporar sistemas LLMs em suas operações. Embora essa adesão possa proporcionar um desempenho impressionante, também cria riscos.
Em julho de 2024, a Statista constatou que 75% dos funcionários de empresas utilizaram o GenAI em seu trabalho e 46% deles adotaram o GenAI nos seis meses anteriores.
Inclusive, o diretor de segurança da informação da OpenAI, Dane Stuckey, em uma publicação no X, reconheceu os desafios de segurança causados:
“Um risco emergente que estamos pesquisando e mitigando cuidadosamente são as injeções imediatas, em que os invasores escondem instruções maliciosas em sites, e-mails ou outras fontes para tentar enganar o agente e fazê-lo se comportar de maneiras não intencionais”
Apesar dessas salvaguardas, a injeção imediata permanece um desafio de segurança, levando agentes a investir tempo e esforço em ataques que exploram IA generativa.
Segundo a McKinsey, o risco de imprecisão em GenAI é o mais relevante, porém apenas 38% das organizações adotam medidas de mitigação.
Portanto, um simples comando inserido em um campo de texto pode comprometer a confidencialidade e integridade dos dados corporativos.
Quais ferramentas são vulneráveis a Prompt Injection?
É importante destacar que aplicações baseadas em LLMs são vulneráveis a ataques de injeção, pois exploram falhas no entendimento da linguagem natural.
Logo, aplicações vulneráveis envolvem ferramentas de IA generativa e qualquer outro software ou API com integração a IA.
Como identificar e conter esse vetor emergente?
Primeiro, é importante estar atento a comportamentos inesperados ou anômalos por parte do LLMs. Respostas desconexas, ações inesperadas ou não consentidas são indícios de que você foi ou está sendo algo de um ataque.
Se os comportamentos inadequados persistirem por um tempo, mesmo após o reinício das aplicações, as chances de um ataque de prompt injection são ainda mais evidentes.
Nesse caso, vale interromper o uso e contatar técnicos ou especialistas de segurança e até mesmo os desenvolvedores da aplicação para reportar o caso e solicitar ajuda.
Para reforçar a proteção, é recomendável desconfiar de links e documentos desconhecidos. Além disso, evite que a aplicação de IA leia esses arquivos e lembre que os comandos maliciosos podem estar ocultos.
Evite enviar textos com formatações incomuns ou prompts externos que não possa verificar — e jamais compartilhe informações ou dados sensíveis.
Embora essas medidas ajudem a mitigar ataques de injeção, cabe aos desenvolvedores reforçar a segurança e adotar práticas seguras no código das aplicações.
Soluções para mitigar os riscos de ataques de injeção
Sua empresa está evoluindo e os riscos de segurança estão por toda parte. A falta de controle e auditoria sobre os prompts é o novo ponto cego da segurança corporativa.
Isso pode gerar vazamento de informações sensíveis, violação de LGPD e erros operacionais graves, além de enfraquecer a confiança dos usuários em soluções baseadas em IA.
Para lidar com os desafios de segurança, a Imperva Application Security Platform, oferece defesa completa contra os ataques de injeção, exploração de APIs e manipulação de entrada em aplicações conectadas a modelos de IA.
A solução combina WAF inteligente, API Security e análise comportamental, identificando tentativas de prompt injection e bloqueando comandos maliciosos antes que atinjam o modelo.
Além disso, a Imperva pode ser integrada a soluções como a CyberArk, que reforça a gestão de acesso e identidade, e a Zscaler, que inspeciona o tráfego e garante conexões seguras.
Essa combinação aproxima as empresas de um modelo Zero Trust, especialmente importante em ambientes que adotam IA corporativa.
Quer transformar sua jornada de segurança cibernética? Converse hoje com nossos especialistas!








