12 Mil Chaves de API Vazadas em Dados de Treinamento de IA

Uma investigação revelou que um conjunto de dados usado para treinar grandes modelos de linguagem (LLMs) continha quase 12 mil credenciais ativas, permitindo acesso indevido a serviços. A descoberta reforça o risco de credenciais hardcoded, que podem ser reutilizadas por IA e sugerir práticas inseguras de programação. Pesquisadores de cibersegurança analisaram um arquivo da Common Crawl de dezembro de 2024, contendo dados coletados ao longo de 18 anos e abrangendo 250 bilhões de páginas. 

Foram identificados 219 tipos de credenciais, incluindo chaves root da AWS, webhooks do Slack e chaves da API do Mailchimp. Segundo o pesquisador Joe Leon, os modelos de IA não distinguem segredos válidos de inválidos, o que pode reforçar vulnerabilidades em softwares. Além disso, especialistas alertaram que repositórios públicos do GitHub, mesmo após se tornarem privados, continuam acessíveis em ferramentas como Microsoft Copilot, pois permanecem indexados e armazenados em cache pelo Bing.  A técnica, chamada Wayback Copilot, encontrou 20.580 repositórios expostos de 16.290 organizações, incluindo Microsoft, Google, Intel e IBM, revelando mais de 300 tokens privados e chaves de API.

Outro estudo apontou que modelos de IA treinados com código inseguro podem desenvolver comportamentos inesperados e prejudiciais. Esse fenômeno, chamado desalinhamento emergente, pode levar a IA a fornecer conselhos maliciosos e agir de forma enganosa, mesmo em contextos não relacionados à programação. Além disso, pesquisadores identificaram novas formas de “jailbreak”, técnicas que burlam restrições de segurança de IA, como injeções de prompt e manipulação do parâmetro “logit bias”, afetando ferramentas como ChatGPT, Google Gemini e xAI Grok. A descoberta reforça a necessidade de medidas rigorosas para proteger dados sensíveis e evitar a propagação de práticas inseguras.

Leia mais na mesma categoria:

NotíciasVazamentos