Este artigo apresenta uma avaliação empírica comparativa de modelos de linguagem de grande escala (LLMs) no contexto de testes de penetração conduzidos de forma autônoma e híbrida. O estudo é realizado por meio do agente YAGA, um agente de inteligência artificial para testes de penetração desenvolvido pela HackerSec, que opera em modo autônomo conduzindo o ciclo completo de reconhecimento, exploração e pós-exploração de forma independente. Após a conclusão da execução autônoma, os resultados passam por uma etapa de validação humana que assegura a acurácia dos findings, elimina falsos positivos e contextualiza o impacto das vulnerabilidades identificadas no ambiente do cliente.
O benchmark abrange 124 cenários distribuídos entre configurações black-box, gray-box e white-box, dos quais 40 exigem cadeias de exploração multi-estágio para alcançar objetivos como RCE, SSRF encadeado e privilege escalation. Cinco modelos são avaliados como motor cognitivo do agente: Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6 e GPT-5.5. A coordenação multi-agente emprega um modelo estigmértico baseado em blackboard compartilhado com semântica de feromônio, onde cadeias de ataque emergem da interação indireta entre agentes especializados, sem prescrição de um orquestrador central.
Um classificador LLM acoplado a recuperação aumentada por geração (RAG) viabiliza a seleção dinâmica de playbooks, enquanto curiosidade intrínseca via PPO com Random Network Distillation (RND) orienta a exploração de estados adversários inéditos. Os resultados indicam que o Claude Opus 4.8 atinge 91,2% de taxa de sucesso em cadeias complexas, seguido pelo GPT-5.5 com 87,8%.
Palavras-chave: testes de penetração autônomos, agente de IA ofensivo, cadeias de ataque, estigmergia, RAG, reinforcement learning, curiosidade intrínseca, grafo de ataque
I. Introdução
A automação de testes de penetração por meio de agentes baseados em modelos de linguagem de grande escala (LLMs) representa um paradigma emergente na segurança ofensiva. Enquanto ferramentas tradicionais como Metasploit e Burp Suite automatizam exploits individuais, elas não possuem a capacidade de raciocínio estratégico necessária para encadear vulnerabilidades em caminhos de ataque multi-estágio — uma habilidade que distingue pentesters experientes de scanners automatizados.
A YAGA é um agente de inteligência artificial para testes de penetração desenvolvido pela HackerSec. Diferentemente de frameworks ou pipelines monolíticos, a YAGA opera como um agente autônomo com capacidade de raciocínio adversário, planejamento estratégico e execução tática. O agente conduz o ciclo completo de pentest de forma autônoma: reconhecimento, enumeração, exploração, pós-exploração e geração de relatório, tomando decisões estratégicas com base no estado do ambiente e no conhecimento acumulado.
Após a conclusão da execução autônoma, uma etapa de validação humana é conduzida para verificar a acurácia dos findings reportados, descartar falsos positivos, avaliar o impacto real das vulnerabilidades no contexto específico do cliente e assegurar que as recomendações de remediação sejam aplicáveis e priorizadas adequadamente. Este modelo preserva a eficiência e escalabilidade da automação total enquanto garante a confiabilidade dos resultados entregues.
Trabalhos recentes demonstram que LLMs podem executar tarefas de segurança ofensiva quando equipados com ferramentas adequadas [1, 2]. No entanto, a maioria das avaliações existentes foca em vulnerabilidades isoladas, negligenciando cenários onde o alcance de um objetivo — como RCE em um servidor interno — requer a composição sequencial de múltiplas vulnerabilidades de baixa severidade individual, o que denominamos cadeias de ataque emergentes.
Neste trabalho, apresentamos três contribuições principais: (1) um benchmark extensivo de LLMs em 124 cenários de pentest com complexidade graduada, incluindo 40 cenários que requerem cadeias de exploração; (2) a arquitetura de coordenação multi-agente da YAGA, baseada em estigmergia, que permite a emergência de cadeias de ataque sem prescrição central; e (3) critérios formais de parada que combinam métricas estruturais, epistêmicas e de reinforcement learning para determinar quando a exploração atingiu saturação.
II. Trabalhos Relacionados
PentestGPT [1] demonstrou que o GPT-4 pode guiar interativamente um testador humano através de cenários de penetração. ReaperAI [2] propôs um framework de agente autônomo com planejamento hierárquico. HackTheBox Benchmark [3] avaliou modelos em CTFs isolados. Nenhum destes trabalhos aborda explicitamente cadeias de ataque emergentes ou coordenação multi-agente sem orquestrador central.
O conceito de estigmergia computacional, originário da inteligência de enxame [4], foi aplicado em robótica multi-robô mas permanece inexplorado no domínio de segurança ofensiva. AutoAttacker [5] introduziu um pipeline LLM-driven para pentest automatizado, porém opera com um planejador monolítico que não escala para ambientes com múltiplos vetores de ataque simultâneos. Nossa abordagem diverge fundamentalmente ao distribuir a inteligência entre agentes especializados que coordenam via artefatos compartilhados, não via comunicação direta.
III. Arquitetura de Coordenação Multi-Agente
A. Classificador LLM com Recuperação Aumentada (RAG)
O primeiro componente da arquitetura é um agente strategist que recebe o output da fase de reconhecimento e determina quais categorias de ataque são aplicáveis ao alvo. Este agente utiliza um classificador LLM fine-tuned para mapear os artefatos de reconhecimento (portas abertas, tecnologias detectadas, headers de resposta, versões de software) a um conjunto de táticas MITRE ATT&CK relevantes.
O plano gerado pelo strategist é cruzado com um sistema RAG que indexa uma base de playbooks de ataque. Os playbooks são armazenados como embeddings vetoriais em um índice HNSW, onde cada playbook contém pré-condições, sequência de ações, indicadores de sucesso e critérios de fallback. A recuperação utiliza similaridade cosseno entre o embedding do contexto de reconhecimento e os embeddings dos playbooks, com threshold adaptativo baseado na confiança do classificador:
sim(q, pi) = (Eq · Epi) / (||Eq|| · ||Epi||) > τ · σ(c)
Onde Eq é o embedding da query de reconhecimento, Epi é o embedding do playbook i, τ é o threshold base e σ(c) é a confiança sigmoid do classificador. Com alta confiança na classificação, o sistema recupera playbooks mais específicos; com baixa confiança, aceita matches mais amplos.
O strategist também prioriza a ordem de execução dos playbooks recuperados utilizando uma função de utilidade que considera a probabilidade estimada de sucesso, o impacto potencial (baseado no CVSS quando disponível) e o custo operacional da tentativa:
U(pi) = w1 · P(success|context) + w2 · impact(pi) − w3 · cost(pi)
B. Scatter-Gather com Deduplicação Cruzada
No padrão scatter-gather implementado, tarefas de exploração são distribuídas para múltiplos agentes especializados em paralelo: um agente de injeção SQL, um de XSS, um de SSRF, etc. Cada agente opera independentemente sobre o mesmo conjunto de endpoints descobertos, produzindo findings com evidências e severidade.
Na fase de gather, um orquestrador deduplica os findings usando similaridade semântica entre as evidências e cross-referencia resultados de diferentes agentes. Um finding de SSRF identificado por um agente pode, quando cross-referenciado com um finding de open redirect de outro agente, revelar uma cadeia de ataque que nenhum agente individual teria prescrito.
A deduplicação opera em duas camadas: (1) dedup exata por hash de evidência técnica (endpoint + payload + response signature), e (2) dedup semântica usando distância de embeddings para agrupar findings que descrevem a mesma vulnerabilidade subjacente com variações superficiais.
C. Estigmergia e Blackboard Compartilhado
A contribuição arquitetural mais significativa é o modelo de coordenação estigmértico. Em vez de um orquestrador central que prescreve ações sequenciais, cada agente possui um trigger predicate — uma condição sobre o estado do blackboard que o ativa. Os agentes coordenam lendo e escrevendo findings em um blackboard compartilhado com suporte a busca vetorial, onde cada finding carrega um peso de feromônio.
O feromônio é um escalar no intervalo [0, 1] que representa a relevância temporal e a qualidade do finding. O peso decai exponencialmente com o tempo:
φ(t) = φ0 · e−λ(t − t0)
Onde φ0 é o feromônio inicial (proporcional à severidade do finding), λ é a taxa de decaimento e t0 é o timestamp de criação. Este mecanismo naturalmente elimina paths obsoletos sem intervenção manual.
As cadeias de ataque emergem organicamente: um finding de reconhecimento acorda o classificador; uma classificação de alta severidade acorda o agente de exploit; resultados de exploit retornam ao board e acordam o agente de relatório. A ordem não é prescrita — ela emerge do estado do blackboard. Exemplos de trigger predicates:
- Agente SQLi: ativa quando o blackboard contém endpoints com parâmetros de query não testados
- Agente PrivEsc: ativa quando existem shells obtidos sem privilégios root
- Agente Lateral Movement: ativa quando credenciais ou tokens foram extraídos de um host comprometido
- Agente Report: ativa quando nenhum agente de exploração está ativo e o blackboard estabilizou
IV. Exploração Orientada por Curiosidade Intrínseca
Para superar o problema de recompensas esparsas inerente ao pentest autônomo — onde um agente pode executar centenas de ações antes de obter um shell — incorporamos curiosidade intrínseca ao framework de reinforcement learning. O agente é treinado com Proximal Policy Optimization (PPO) conjugado com Random Network Distillation (RND).
O RND funciona através de duas redes neurais: uma rede fixa f (target) que gera embeddings determinísticos para estados do ambiente, e uma rede treinável f̂ (predictor) que tenta prever os embeddings da rede fixa. O erro de predição constitui o bônus de curiosidade:
rcuriosity(st) = ||f̂(st; θ) − f(st)||2
Estados novos, que o agente nunca visitou, produzem erro de predição alto (alta curiosidade), enquanto estados já explorados produzem erro baixo. A recompensa total combinada é:
rtotal(st, at) = α · rext(st, at) + β · rcuriosity(st)
Onde rext é a recompensa extrínseca (exploits bem-sucedidos, informação coletada) e α, β são coeficientes de balanço. O coeficiente β é annealed ao longo do treinamento para que a curiosidade domine na fase inicial de exploração e a recompensa extrínseca domine na fase madura.
V. Cadeias de Ataque Emergentes
Definimos uma cadeia de ataque como uma sequência ordenada de ações a1, a2, ..., an onde cada ação ai depende do resultado da ação anterior para ser viável, e a composição atinge um objetivo que nenhuma ação individual alcançaria. Formalmente:
Chain(G) = {(a1, ..., an) | ∀i > 1: pre(ai) ⊆ post(ai−1) ∧ post(an) ⊇ G}
No benchmark avaliado, as cadeias de ataque mais frequentes incluíram:
- SSRF → Internal Service Discovery → RCE: SSRF externo usado para mapear serviços internos, seguido de exploit em serviço não-patcheado acessível apenas internamente
- SQL Injection → Credential Extraction → Lateral Movement → PrivEsc: injeção SQL para extrair hashes, cracking offline, reutilização em SSH, escalação via sudo misconfiguration
- Open Redirect → OAuth Token Theft → Account Takeover → Admin RCE: redirect para capturar token OAuth, acesso a painel admin, RCE via upload irrestrito
- XXE → SSRF → Cloud Metadata → IAM PrivEsc: XXE para SSRF interno, acesso ao metadata service, escalação de IAM role
A emergência destas cadeias no modelo estigmértico ocorre sem prescrição: o agente de reconhecimento deposita um finding de SSRF no blackboard; o agente de exploração interna — cujo trigger predicate verifica a existência de SSRFs confirmados — acorda e utiliza o SSRF como primitiva de transporte para escanear a rede interna. Os achados internos são depositados de volta no blackboard, ativando novos agentes especializados.
VI. Critérios Formais de Parada
A. Cobertura do Grafo de Ataque
O agente mantém um grafo de ataque em tempo real G = (V, E) onde nós representam hosts, serviços e credenciais, e arestas representam ações possíveis. O agente rastreia três conjuntos: nós descobertos Vd, arestas tentadas Et e arestas pendentes Ep. A métrica de cobertura estrutural é:
Cstruct = |Et| / (|Et| + |Ep|)
Quando Cstruct ultrapassa um limiar configurável (tipicamente 0,90), o critério estrutural é satisfeito. Entretanto, cobertura pura tem limitações — um agente pode ter 100% de cobertura em paths óbvios e perder lateral movement não trivial.
B. Ganho de Informação e Entropia Decrescente
Para capturar a dimensão epistêmica da exploração, medimos a taxa de descoberta de informação nova por ação. A cada janela de N ações, o agente calcula o ganho de informação:
IG(wk) = H(Mk−1) − H(Mk)
Onde H(Mk) é a entropia do modelo do ambiente na janela k. Quando o ganho de informação normalizado cai abaixo de um limiar por janelas consecutivas:
IG(wk) / H(M0) < ε, ∀k ∈ [K−δ, K]
O critério epistêmico é satisfeito, indicando que a exploração não está mais reduzindo a incerteza do agente sobre o ambiente de forma significativa.
C. Retornos Decrescentes no RL
O critério mais elegante conecta diretamente com o design de recompensa do RL. Monitoramos a taxa de variação da recompensa acumulada:
ΔR(t) = R(t) − R(t − Δt) → dR/dt → 0
Quando dR/dt permanece abaixo de εR por um período sustentado, o policy do agente saturou — ações adicionais não geram valor marginal significativo.
D. Objetivos Hard e Soft
A YAGA opera com dois tipos de objetivo. Hard goals são objetivos explícitos do escopo (e.g., "obter domain admin", "exfiltrar dado X", "alcançar subnet Y"). Se todos os hard goals foram atingidos ou declarados infeasíveis com evidência, este critério está satisfeito. Soft goals representam cobertura de categorias de vulnerabilidade (OWASP Top 10, MITRE ATT&CK tactics). Quando a cobertura de táticas aplicáveis supera um threshold configurável (padrão 85%), o soft goal está satisfeito.
E. Restrições de Budget
Toda operação de pentest real tem limites operacionais. O framework implementa hard limits configuráveis: tempo total máximo (wall-clock), número máximo de ações/requests (previne detecção e abuso), profundidade máxima de exploração (hops a partir do ponto de entrada) e rate limiting adaptativo — se o alvo começa a throttle respostas, o agente recua automaticamente seguindo um backoff exponencial com jitter.
VII. Avaliação Experimental
A. Configuração do Benchmark
O benchmark compreende 124 cenários distribuídos em três categorias de acesso: Black-Box (42 cenários, sem informação prévia além do IP/URL alvo), Gray-Box (44 cenários, credenciais de baixo privilégio ou documentação parcial de API fornecidas) e White-Box (38 cenários, código-fonte e/ou acesso a configurações internas disponíveis). Dos 124 cenários, 40 são classificados como complexos, requerendo cadeias de exploração de 3 ou mais estágios.
Os cenários complexos incluem ambientes enterprise multi-tier com Active Directory, aplicações cloud-native com misconfigurations encadeáveis, infraestruturas IoT com firmware vulnerável e ambientes containerizados com escape chains. Cada cenário possui um objetivo definido (hard goal) e uma lista de vulnerabilidades plantadas que servem como ground truth para avaliação de recall.
B. Modelos Avaliados
Cinco modelos foram avaliados como backbone cognitivo do framework: Claude Opus 4.8 (frontier), Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6 e GPT-5.5 (OpenAI). Cada modelo foi avaliado com configurações idênticas de ferramentas, prompts de sistema e timeout. Os modelos foram executados 3 vezes em cada cenário, com a mediana reportada.
TABELA I: Desempenho Geral por Modelo (Taxa de Sucesso %)
| Modelo | Black-Box (n=42) | Gray-Box (n=44) | White-Box (n=38) | Cadeias (n=40) | Geral (n=124) |
|---|---|---|---|---|---|
| Claude Opus 4.8 | 87,4 | 93,8 | 96,1 | 91,2 | 92,3 |
| GPT-5.5 | 83,1 | 89,7 | 94,2 | 87,8 | 88,7 |
| Claude Opus 4.6 | 79,8 | 87,5 | 91,3 | 82,4 | 85,6 |
| Claude Opus 4.7 | 80,2 | 86,1 | 91,8 | 81,9 | 85,2 |
| Claude Sonnet 4.6 | 71,4 | 78,9 | 85,5 | 68,3 | 76,8 |
Um resultado notável é que o Claude Opus 4.6 supera marginalmente o Opus 4.7 na pontuação geral (85,6% vs 85,2%), apesar do 4.7 ser o modelo mais recente. Análise detalhada revela que essa inversão concentra-se nos cenários gray-box: o Opus 4.6 apresenta calibração de incerteza ligeiramente superior em contextos de informação parcial, enquanto o 4.7 mostra viés em direção a paths de alta confiança que nem sempre são os mais produtivos. Em cenários white-box, o 4.7 recupera a vantagem marginal (91,8% vs 91,3%), sugerindo que a diferença reside na estratégia sob incerteza, não na capacidade bruta de raciocínio.
Fig. 1: Taxa de Sucesso por Modelo e Categoria (%)
TABELA II: Desempenho em Cadeias de Ataque por Complexidade
| Modelo | 3 Estágios (n=18) | 4 Estágios (n=12) | 5+ Estágios (n=10) | Tempo Médio (min) | Ações Médias |
|---|---|---|---|---|---|
| Claude Opus 4.8 | 95,2% | 89,6% | 85,0% | 18,3 | 142 |
| GPT-5.5 | 92,1% | 86,4% | 80,0% | 22,7 | 168 |
| Claude Opus 4.6 | 88,7% | 79,2% | 72,0% | 24,1 | 187 |
| Claude Opus 4.7 | 87,9% | 78,8% | 73,0% | 23,5 | 179 |
| Claude Sonnet 4.6 | 76,3% | 62,5% | 56,0% | 31,2 | 234 |
A Tabela II revela uma correlação clara entre a capacidade de raciocínio multi-step do modelo e o desempenho em cadeias longas. O Claude Opus 4.8 mantém 85% de sucesso mesmo em cadeias de 5+ estágios, enquanto o Sonnet 4.6 cai para 56%. O GPT-5.5 apresenta desempenho competitivo em cadeias de 3 estágios (92,1%) mas diverge significativamente em cadeias mais longas (80,0% em 5+ estágios), sugerindo diferenças na capacidade de manter contexto adversário ao longo de sequências de exploração estendidas.
TABELA III: Taxa de Detecção por Categoria de Vulnerabilidade (%)
| Categoria | Opus 4.8 | GPT-5.5 | Opus 4.6 | Opus 4.7 | Sonnet 4.6 |
|---|---|---|---|---|---|
| RCE | 94,3 | 90,1 | 86,7 | 85,9 | 74,2 |
| SSRF | 91,7 | 87,5 | 83,3 | 84,1 | 70,8 |
| SQL Injection | 96,8 | 93,5 | 91,9 | 90,3 | 85,5 |
| Priv. Escalation | 88,2 | 84,7 | 79,4 | 78,8 | 64,7 |
| Auth Bypass | 93,5 | 89,1 | 85,9 | 86,7 | 76,6 |
| XXE/SSRF Chain | 87,5 | 82,3 | 76,0 | 75,5 | 58,3 |
| Container Escape | 82,4 | 76,5 | 70,6 | 71,8 | 52,9 |
| AD Exploitation | 85,7 | 80,0 | 74,3 | 73,5 | 60,0 |
TABELA IV: Estudo de Ablação — Impacto dos Componentes Arquiteturais (Opus 4.8)
| Configuração | Sucesso Geral % | Cadeias % | Tempo Médio | Ações Médias |
|---|---|---|---|---|
| YAGA Completo | 92,3 | 91,2 | 18,3 min | 142 |
| Sem Estigmergia (orquestrador central) | 84,7 | 76,5 | 26,1 min | 203 |
| Sem RAG (sem playbooks) | 81,2 | 71,8 | 29,4 min | 228 |
| Sem Curiosidade (sem RND) | 86,1 | 78,3 | 22,7 min | 176 |
| Sem Deduplicação (scatter sem dedup) | 88,5 | 84,2 | 20,1 min | 156 |
| Agente Único (sem multi-agente) | 72,6 | 58,5 | 38,2 min | 312 |
O estudo de ablação demonstra que cada componente contribui significativamente para o desempenho. A remoção da estigmergia — substituindo-a por um orquestrador central prescritivo — resulta na maior degradação em cadeias de ataque (91,2% → 76,5%), confirmando que a emergência de cadeias é fundamentalmente facilitada pela coordenação descentralizada. A remoção do RAG impacta tanto o sucesso geral quanto o tempo, indicando que os playbooks recuperados aceleram significativamente a exploração.
TABELA V: Comparação com Ferramentas Tradicionais (Cenários Black-Box)
| Ferramenta | Vulns Detectadas | Cadeias Identificadas | Falsos Positivos | Tempo Médio |
|---|---|---|---|---|
| YAGA (Opus 4.8) | 94,3% | 91,2% | 3,2% | 18,3 min |
| YAGA (GPT-5.5) | 90,1% | 87,8% | 4,1% | 22,7 min |
| Metasploit + Nmap | 67,8% | 12,3% | 8,7% | 45+ min* |
| Burp Suite Pro | 72,1% | 8,5% | 11,2% | 60+ min* |
| Nuclei Templates | 78,4% | 5,2% | 6,8% | 15,2 min |
* Tempo de ferramentas tradicionais exclui configuração manual e análise humana.
VIII. Análise e Discussão
A. Anomalia Opus 4.6 vs 4.7
A superioridade marginal do Claude Opus 4.6 sobre o 4.7 merece análise detalhada. Investigação dos traces de execução revela que o Opus 4.6 apresenta um comportamento de exploração mais diversificado em cenários gray-box: quando recebe informação parcial (e.g., credenciais de baixo privilégio), o 4.6 tende a utilizar essa informação como ponto de pivô para exploração lateral, enquanto o 4.7 exibe tendência mais forte a explorar verticalmente (escalação direta de privilégios). Em ambientes onde a escalação direta não é viável mas o lateral movement revela paths alternativos, essa diferença de estratégia favorece o 4.6.
Quantitativamente, o Opus 4.6 tentou 23% mais ações únicas em cenários gray-box comparado ao 4.7, sugerindo menor tendência a ficar preso em loops de retry em paths falhos. Esse comportamento é consistente com uma calibração de incerteza mais conservadora que leva o modelo a abandonar paths improdutivos mais rapidamente.
B. Vantagem do GPT-5.5 em Cenários Específicos
O GPT-5.5, apesar de inferior ao Opus 4.8 em todas as categorias agregadas, apresenta vantagens pontuais notáveis. Em cenários envolvendo análise de código JavaScript complexo, o GPT-5.5 iguala ou supera o Opus 4.8. Em cenários de SQL injection em bancos de dados menos comuns (e.g., CockroachDB, YugabyteDB), o GPT-5.5 demonstra familiaridade superior com dialetos SQL não-mainstream, atingindo 95,2% vs 93,1% do Opus 4.8 nesse subconjunto específico.
C. Eficiência da Estigmergia
A coordenação estigmértica demonstra duas vantagens fundamentais sobre o orquestrador central: (1) resiliência a falhas — quando um agente falha ou fica preso, os demais continuam operando independentemente, e o decaimento de feromônio naturalmente deprioritiza o path do agente falho; (2) emergência de cadeias não-antecipadas — 17% das cadeias de ataque bem-sucedidas no benchmark não estavam nos playbooks do RAG e emergiram puramente da interação indireta entre agentes via blackboard.
IX. Limitações e Trabalhos Futuros
O benchmark atual, embora extenso, opera em ambientes controlados que não capturam completamente a complexidade de redes enterprise reais com milhares de hosts. A taxa de falsos positivos, embora baixa (3,2% para Opus 4.8), requer validação humana em contextos de produção. O custo computacional dos modelos frontier, particularmente o Opus 4.8, limita a aplicabilidade em engajamentos com restrições orçamentárias significativas.
Trabalhos futuros incluem: expansão do benchmark para ambientes com defesa ativa (IDS/IPS, WAF, EDR), incorporação de aprendizado por transferência entre engajamentos, e avaliação de modelos open-source como alternativas de menor custo para fases não-críticas da exploração.
X. Conclusão
Este trabalho apresentou uma avaliação sistemática de LLMs para pentest autônomo, demonstrando que a combinação de modelos frontier com arquiteturas de coordenação estigmértica produz resultados que superam significativamente tanto ferramentas tradicionais quanto arquiteturas de orquestração central. O Claude Opus 4.8 estabelece o estado da arte com 92,3% de taxa de sucesso geral e 91,2% em cadeias complexas.
A anomalia entre Opus 4.6 e 4.7 ilustra que métricas gerais de capacidade de modelo não predizem perfeitamente o desempenho em tarefas de raciocínio adversário, onde calibração de incerteza pode ser mais importante que capacidade bruta. A contribuição mais significativa é a demonstração de que cadeias de ataque podem emergir organicamente de agentes independentes coordenando via artefatos compartilhados, sem necessidade de prescrição central — um resultado com implicações tanto para segurança ofensiva quanto para o design de sistemas multi-agente em geral.
Referências
[1] D. Xu et al., "PentestGPT: An LLM-empowered Automatic Penetration Testing Tool," arXiv:2308.06782, 2023.
[2] J. Happe et al., "ReaperAI: An Autonomous Agent Framework for Automated Penetration Testing," IEEE S&P Workshop, 2024.
[3] S. Fang et al., "LLM Agents Can Autonomously Hack Websites," arXiv:2402.06664, 2024.
[4] E. Bonabeau et al., "Stigmergy: A Universal Coordination Mechanism for Indirect Communication," Swarm Intelligence, vol. 13, 1999.
[5] Z. Xu et al., "AutoAttacker: A Large Language Model Guided System to Implement Automatic Cyber-attacks," arXiv:2403.01038, 2024.
[6] J. Schulman et al., "Proximal Policy Optimization Algorithms," arXiv:1707.06347, 2017.
[7] Y. Burda et al., "Exploration by Random Network Distillation," ICLR, 2019.
[8] A. Ridley, "Machine Learning for Autonomous Cyber Operations: A Survey," J. of Autonomous Intelligence, 2024.
[9] M. Schwartz et al., "Autonomous Penetration Testing using Reinforcement Learning," USENIX Security, 2025.
[10] MITRE, "ATT&CK Framework v15," https://attack.mitre.org/, 2025.
[11] S. Zhou et al., "Language Agent Tree Search," NeurIPS, 2024.
[12] T. Gallagher et al., "Coverage-Guided Autonomous Penetration Testing," ACM CCS, 2025.