Os grandes modelos de linguagem (LLMs) têm mostrado uma capacidade surpreendente em várias tarefas, e pesquisadores descobriram que GPT-4 é capaz de explorar 87% das vulnerabilidades conhecidas como One Day. Essas vulnerabilidades são aquelas que já foram documentadas, mas que ainda estão sujeitas a exploração por falta de correções ou mitigação adequada. Em um estudo recente, os pesquisadores Richard Fang, Rohan Bindu, Akul Gupta e Daniel Kang criaram um benchmark com 15 vulnerabilidades reais, incluindo falhas em sites, software de gerenciamento de contêineres e pacotes Python.
Eles projetaram um agente baseado no GPT-4 com apenas 91 linhas de código, permitindo-lhe acesso a ferramentas, descrições CVE e o framework ReAct. Este agente obteve uma taxa de sucesso de 87%, superando outros LLMs e scanners de vulnerabilidade de código aberto, que obtiveram uma taxa de sucesso de 0%. Ao retirar a descrição do CVE, a taxa de sucesso do GPT-4 caiu para 7%, indicando que sua capacidade de exploração é mais eficaz quando já existe documentação da vulnerabilidade.
Isso sugere que o GPT-4 é mais competente em explorar vulnerabilidades conhecidas do que encontrar novas. A pesquisa mostra que o GPT-4 pode executar ataques complexos, lançar diferentes métodos de ataque, criar códigos para exploração e manipular vulnerabilidades não relacionadas à web. No entanto, sem a descrição do CVE, ele luta para encontrar o vetor de ataque correto, sugerindo que há espaço para melhorias na descoberta de novas vulnerabilidades.