Pesquisadores de cibersegurança revelaram uma nova técnica adversária chamada “Deceptive Delight”, que pode ser usada para contornar as proteções de grandes modelos de linguagem (LLMs) durante uma conversa interativa, inserindo instruções indesejadas entre comandos aparentemente benignos. A técnica, descrita como simples e eficaz pela equipe Unit 42 da Palo Alto Networks, apresenta uma taxa de sucesso de ataque (ASR) de 64,6% em apenas três interações. De acordo com os pesquisadores, a abordagem “Deceptive Delight” é uma técnica de múltiplas interações que, gradualmente, burla as barreiras de segurança dos LLMs, levando-os a gerar conteúdo inseguro ou prejudicial.
Diferente de métodos de jailbreak multi-turn, como o Crescendo, que insere temas perigosos entre instruções inofensivas, o “Deceptive Delight” guia o modelo de maneira gradual até produzir saídas nocivas. Outro método estudado recentemente é o “Context Fusion Attack” (CFA), uma técnica de jailbreak em caixa-preta, capaz de contornar as proteções de segurança dos modelos. Essa abordagem envolve a construção de cenários contextuais em torno de termos-chave filtrados do alvo, ocultando a intenção maliciosa ao substituir palavras perigosas por termos mais sutis.
A técnica “Deceptive Delight” aproveita-se de fraquezas inerentes aos LLMs, como sua capacidade limitada de manter a atenção ao gerar respostas. A técnica manipula o contexto em duas interações consecutivas, enganando o modelo para produzir conteúdo inseguro. Uma terceira interação aumenta a gravidade e o detalhamento das respostas perigosas. Essa limitação na atenção dos LLMs torna difícil para eles avaliarem consistentemente o contexto completo, principalmente em passagens complexas ou longas.