Bom dia,
A utilização de uma ferramenta de Inteligência Artificial (IA) para responder a perguntas do serviço de apoio ao cliente pode ser uma ótima estratégia para poupar tempo. O mesmo se aplica à utilização de um assistente de IA para resumir e-mails. Contudo, as poderosas capacidades linguísticas destas ferramentas também as tornam vulneráveis a ataques através de prompts ou tentativas maliciosas cujo propósito consiste em enganar os modelos de IA para que ignorem as regras do sistema e produzam resultados indesejados.
Existem dois tipos de ataques de prompts. O primeiro é um ataque de prompt direto conhecido como jailbreak, como quando a ferramenta de apoio ao cliente gera conteúdo ofensivo por solicitação de alguém, por exemplo. O segundo é um ataque de prompt indireto, como quando o assistente de e-mail segue um prompt oculto e malicioso para revelar dados confidenciais.
A Microsoft protege contra este tipo de ataques de prompt com ferramentas e práticas de IA que incluem novas proteções de segurança, soluções de segurança avançadas e um grande investimento em investigação e especialização em cibersegurança.
Os jailbreaks ocorrem quando alguém introduz diretamente prompts maliciosos num sistema de IA, como, por exemplo, pedir-lhe para “esquecer” as suas regras ou fingir que é uma entidade desonesta. Este termo era utilizado para smartphones antes da IA: descrevia alguém que tentava personalizar o seu telemóvel, libertando-o da “jail” de restrições do fabricante.
Os ataques de prompt indiretos ocorrem quando alguém esconde instruções maliciosas num e-mail, documento, website ou outros conteúdos processados por uma ferramenta de IA. Um atacante pode enviar um e-mail aparentemente inofensivo que oculta uma instrução prejudicial num tipo de letra branco, num texto codificado ou numa imagem. Uma empresa ou um website de currículos pode inserir texto oculto para manipular as ferramentas de monitorização da IA de modo a evitar uma auditoria à empresa ou a colocar um currículo no topo de uma lista.
As pessoas estão mais conscientes dos jailbreaks, porém os ataques indiretos acarretam um risco maior, na medida em que podem permitir o acesso externo e não autorizado a informações privilegiadas. Muitas vezes, as organizações precisam de basear os seus sistemas de IA em documentos e conjuntos de dados para aproveitar os benefícios da IA generativa. Isso pode, no entanto, abrir caminhos para ataques indiretos que conduzam a fugas de dados, malware e outras violações de segurança quando esses documentos e conjuntos de dados não são confiáveis ou estão comprometidos.
Para ajudar a proteger contra jailbreaks e ataques indiretos, a Microsoft desenvolveu uma abordagem abrangente que ajuda os programadores de IA a detetar, avaliar e gerir o risco. Esta abordagem inclui o Prompt Shields, um modelo aperfeiçoado para detetar e bloquear prompts maliciosos em tempo real, e avaliações de segurança para simular prompts prejudiciais e medir a suscetibilidade de uma aplicação aos mesmos. Ambas as ferramentas estão disponíveis no Azure AI Foundry.
O Microsoft Defender for Cloud ajuda a prevenir futuros ataques com recurso a ferramentas de análise e bloqueio de atacantes, enquanto o Microsoft Purview fornece uma plataforma para gerir dados sensíveis utilizados em aplicações de IA. A empresa também publica as melhores práticas para desenvolver uma defesa multicamada que inclui mensagens de sistema robustas, ou regras que direcionam um modelo de IA sobre segurança e desempenho.
A estratégia de defesa decorre da experiência de longa data da empresa em cibersegurança, que vai desde a sua AI Red Team até ao Microsoft Security Response Center que investiga e monitoriza ataques. O centro gere programas Bug Bounty para investigadores externos poderem relatar vulnerabilidades em produtos da Microsoft e lançou, recentemente, uma nova oportunidade para assinalarem vulnerabilidades de alto impacto nos produtos de IA e Cloud da empresa.
Os investigadores da Microsoft que estudam ataques indiretos estão a contribuir para essas melhorias. Descobriram que o “spotlighting”, um conjunto de técnicas de engenharia de prompts, pode reduzir o risco de ataque ao ajudar os LLMs a diferenciar instruções de sistema válidas de instruções adversárias. A equipa de investigação da Microsoft está também a estudar a “task drift” - desvios na forma como os modelos respondem a tarefas com e sem documentos de base - como uma nova forma de detetar ataques indiretos.
Saiba mais sobre o trabalho da Microsoft em prol da Responsible AI.
Obrigada!