Modelos de IA maliciosos são vendidos em mercados clandestinos

Pesquisadores da Universidade de Indiana identificaram 212 modelos de LLMs (Modelos de Linguagem de Grande Escala) maliciosos sendo vendidos em mercados clandestinos entre abril e setembro de 2024. Um dos principais exemplos, o WormGPT, gerou cerca de US$ 28.000 em apenas dois meses, destacando o apelo para agentes maliciosos que buscam contornar as barreiras de segurança da inteligência artificial e explorar a alta demanda por esses modelos.

Esses LLMs ilegais, apelidados de “Mallas” pelos acadêmicos, são, em grande parte, construídos com base em padrões de código aberto e, em alguns casos, resultam de versões comerciais que foram jailbreaked. Esses modelos são usados por cibercriminosos para automatizar atividades como a criação de e-mails de phishing em grande escala, o desenvolvimento de malware e até a exploração de vulnerabilidades zero-day a um custo reduzido.

Embora empresas de tecnologia como OpenAI, Meta, Google e Anthropic possuam mecanismos para evitar o jailbreaking de seus modelos, hackers têm encontrado maneiras de contornar essas proteções. A Microsoft relatou recentemente o uso de uma “chave mestra” para forçar esses LLMs a responder a solicitações ilícitas.

Além disso, pesquisadores da Robust Intelligence e da Universidade de Yale identificaram um método automatizado de jailbreaking que não requer conhecimento técnico aprofundado. Entre os LLMs maliciosos encontrados pelos pesquisadores, destacam-se o DarkGPT, que custa apenas 78 centavos a cada 50 mensagens, e o Escape GPT, um serviço por assinatura de US$ 64,98 por mês.

Ambos foram capazes de gerar códigos maliciosos indetectáveis por ferramentas antivírus em cerca de dois terços das vezes. Outro modelo, o WolfGPT, vendido por US$ 150, permite criar e-mails de phishing que conseguem escapar da maioria dos detectores de spam. A maioria desses modelos maliciosos foi construída com base nos sistemas GPT-3.5 e GPT-4 da OpenAI, além de modelos como Pygmalion-13B, Claude Instant e Claude-2-100k. A OpenAI foi o alvo preferido dos desenvolvedores de GPTs maliciosos.

Leia mais na mesma categoria:

CibercriminososNotícias