← Voltar ao Blog

Benchmark do Agente de Pentest Yaga

3 de junho de 2026 19 min de leitura

Este artigo apresenta uma avaliação empírica comparativa de modelos de linguagem de grande escala (LLMs) no contexto de testes de penetração conduzidos de forma autônoma e híbrida. O estudo é realizado por meio do agente YAGA, um agente de inteligência artificial para testes de penetração desenvolvido pela HackerSec, que opera em modo autônomo conduzindo o ciclo completo de reconhecimento, exploração e pós-exploração de forma independente. Após a conclusão da execução autônoma, os resultados passam por uma etapa de validação humana que assegura a acurácia dos findings, elimina falsos positivos e contextualiza o impacto das vulnerabilidades identificadas no ambiente do cliente.

O benchmark abrange 124 cenários distribuídos entre configurações black-box, gray-box e white-box, dos quais 40 exigem cadeias de exploração multi-estágio para alcançar objetivos como RCE, SSRF encadeado e privilege escalation. Cinco modelos são avaliados como motor cognitivo do agente: Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6 e GPT-5.5. A coordenação multi-agente emprega um modelo estigmértico baseado em blackboard compartilhado com semântica de feromônio, onde cadeias de ataque emergem da interação indireta entre agentes especializados, sem prescrição de um orquestrador central.

Um classificador LLM acoplado a recuperação aumentada por geração (RAG) viabiliza a seleção dinâmica de playbooks, enquanto curiosidade intrínseca via PPO com Random Network Distillation (RND) orienta a exploração de estados adversários inéditos. Os resultados indicam que o Claude Opus 4.8 atinge 91,2% de taxa de sucesso em cadeias complexas, seguido pelo GPT-5.5 com 87,8%.

Palavras-chave: testes de penetração autônomos, agente de IA ofensivo, cadeias de ataque, estigmergia, RAG, reinforcement learning, curiosidade intrínseca, grafo de ataque

I. Introdução

A automação de testes de penetração por meio de agentes baseados em modelos de linguagem de grande escala (LLMs) representa um paradigma emergente na segurança ofensiva. Enquanto ferramentas tradicionais como Metasploit e Burp Suite automatizam exploits individuais, elas não possuem a capacidade de raciocínio estratégico necessária para encadear vulnerabilidades em caminhos de ataque multi-estágio — uma habilidade que distingue pentesters experientes de scanners automatizados.

A YAGA é um agente de inteligência artificial para testes de penetração desenvolvido pela HackerSec. Diferentemente de frameworks ou pipelines monolíticos, a YAGA opera como um agente autônomo com capacidade de raciocínio adversário, planejamento estratégico e execução tática. O agente conduz o ciclo completo de pentest de forma autônoma: reconhecimento, enumeração, exploração, pós-exploração e geração de relatório, tomando decisões estratégicas com base no estado do ambiente e no conhecimento acumulado.

Após a conclusão da execução autônoma, uma etapa de validação humana é conduzida para verificar a acurácia dos findings reportados, descartar falsos positivos, avaliar o impacto real das vulnerabilidades no contexto específico do cliente e assegurar que as recomendações de remediação sejam aplicáveis e priorizadas adequadamente. Este modelo preserva a eficiência e escalabilidade da automação total enquanto garante a confiabilidade dos resultados entregues.

Trabalhos recentes demonstram que LLMs podem executar tarefas de segurança ofensiva quando equipados com ferramentas adequadas [1, 2]. No entanto, a maioria das avaliações existentes foca em vulnerabilidades isoladas, negligenciando cenários onde o alcance de um objetivo — como RCE em um servidor interno — requer a composição sequencial de múltiplas vulnerabilidades de baixa severidade individual, o que denominamos cadeias de ataque emergentes.

Neste trabalho, apresentamos três contribuições principais: (1) um benchmark extensivo de LLMs em 124 cenários de pentest com complexidade graduada, incluindo 40 cenários que requerem cadeias de exploração; (2) a arquitetura de coordenação multi-agente da YAGA, baseada em estigmergia, que permite a emergência de cadeias de ataque sem prescrição central; e (3) critérios formais de parada que combinam métricas estruturais, epistêmicas e de reinforcement learning para determinar quando a exploração atingiu saturação.

II. Trabalhos Relacionados

PentestGPT [1] demonstrou que o GPT-4 pode guiar interativamente um testador humano através de cenários de penetração. ReaperAI [2] propôs um framework de agente autônomo com planejamento hierárquico. HackTheBox Benchmark [3] avaliou modelos em CTFs isolados. Nenhum destes trabalhos aborda explicitamente cadeias de ataque emergentes ou coordenação multi-agente sem orquestrador central.

O conceito de estigmergia computacional, originário da inteligência de enxame [4], foi aplicado em robótica multi-robô mas permanece inexplorado no domínio de segurança ofensiva. AutoAttacker [5] introduziu um pipeline LLM-driven para pentest automatizado, porém opera com um planejador monolítico que não escala para ambientes com múltiplos vetores de ataque simultâneos. Nossa abordagem diverge fundamentalmente ao distribuir a inteligência entre agentes especializados que coordenam via artefatos compartilhados, não via comunicação direta.

III. Arquitetura de Coordenação Multi-Agente

A. Classificador LLM com Recuperação Aumentada (RAG)

O primeiro componente da arquitetura é um agente strategist que recebe o output da fase de reconhecimento e determina quais categorias de ataque são aplicáveis ao alvo. Este agente utiliza um classificador LLM fine-tuned para mapear os artefatos de reconhecimento (portas abertas, tecnologias detectadas, headers de resposta, versões de software) a um conjunto de táticas MITRE ATT&CK relevantes.

O plano gerado pelo strategist é cruzado com um sistema RAG que indexa uma base de playbooks de ataque. Os playbooks são armazenados como embeddings vetoriais em um índice HNSW, onde cada playbook contém pré-condições, sequência de ações, indicadores de sucesso e critérios de fallback. A recuperação utiliza similaridade cosseno entre o embedding do contexto de reconhecimento e os embeddings dos playbooks, com threshold adaptativo baseado na confiança do classificador:

sim(q, p_i) = (E_q · E_{p_i}) / (||E_q|| · ||E_{p_i}||) > τ · σ(c)

Onde E_q é o embedding da query de reconhecimento, E_{p_i} é o embedding do playbook i, τ é o threshold base e σ(c) é a confiança sigmoid do classificador. Com alta confiança na classificação, o sistema recupera playbooks mais específicos; com baixa confiança, aceita matches mais amplos.

O strategist também prioriza a ordem de execução dos playbooks recuperados utilizando uma função de utilidade que considera a probabilidade estimada de sucesso, o impacto potencial (baseado no CVSS quando disponível) e o custo operacional da tentativa:

U(p_i) = w₁ · P(success|context) + w₂ · impact(p_i) − w₃ · cost(p_i)

B. Scatter-Gather com Deduplicação Cruzada

No padrão scatter-gather implementado, tarefas de exploração são distribuídas para múltiplos agentes especializados em paralelo: um agente de injeção SQL, um de XSS, um de SSRF, etc. Cada agente opera independentemente sobre o mesmo conjunto de endpoints descobertos, produzindo findings com evidências e severidade.

Na fase de gather, um orquestrador deduplica os findings usando similaridade semântica entre as evidências e cross-referencia resultados de diferentes agentes. Um finding de SSRF identificado por um agente pode, quando cross-referenciado com um finding de open redirect de outro agente, revelar uma cadeia de ataque que nenhum agente individual teria prescrito.

A deduplicação opera em duas camadas: (1) dedup exata por hash de evidência técnica (endpoint + payload + response signature), e (2) dedup semântica usando distância de embeddings para agrupar findings que descrevem a mesma vulnerabilidade subjacente com variações superficiais.

C. Estigmergia e Blackboard Compartilhado

A contribuição arquitetural mais significativa é o modelo de coordenação estigmértico. Em vez de um orquestrador central que prescreve ações sequenciais, cada agente possui um trigger predicate — uma condição sobre o estado do blackboard que o ativa. Os agentes coordenam lendo e escrevendo findings em um blackboard compartilhado com suporte a busca vetorial, onde cada finding carrega um peso de feromônio.

O feromônio é um escalar no intervalo [0, 1] que representa a relevância temporal e a qualidade do finding. O peso decai exponencialmente com o tempo:

φ(t) = φ₀ · e^{−λ(t − t₀)}

Onde φ₀ é o feromônio inicial (proporcional à severidade do finding), λ é a taxa de decaimento e t₀ é o timestamp de criação. Este mecanismo naturalmente elimina paths obsoletos sem intervenção manual.

As cadeias de ataque emergem organicamente: um finding de reconhecimento acorda o classificador; uma classificação de alta severidade acorda o agente de exploit; resultados de exploit retornam ao board e acordam o agente de relatório. A ordem não é prescrita — ela emerge do estado do blackboard. Exemplos de trigger predicates:

Agente SQLi: ativa quando o blackboard contém endpoints com parâmetros de query não testados
Agente PrivEsc: ativa quando existem shells obtidos sem privilégios root
Agente Lateral Movement: ativa quando credenciais ou tokens foram extraídos de um host comprometido
Agente Report: ativa quando nenhum agente de exploração está ativo e o blackboard estabilizou

IV. Exploração Orientada por Curiosidade Intrínseca

Para superar o problema de recompensas esparsas inerente ao pentest autônomo — onde um agente pode executar centenas de ações antes de obter um shell — incorporamos curiosidade intrínseca ao framework de reinforcement learning. O agente é treinado com Proximal Policy Optimization (PPO) conjugado com Random Network Distillation (RND).

O RND funciona através de duas redes neurais: uma rede fixa f (target) que gera embeddings determinísticos para estados do ambiente, e uma rede treinável f̂ (predictor) que tenta prever os embeddings da rede fixa. O erro de predição constitui o bônus de curiosidade:

r_curiosity(s_t) = ||f̂(s_t; θ) − f(s_t)||²

Estados novos, que o agente nunca visitou, produzem erro de predição alto (alta curiosidade), enquanto estados já explorados produzem erro baixo. A recompensa total combinada é:

r_total(s_t, a_t) = α · r_ext(s_t, a_t) + β · r_curiosity(s_t)

Onde r_ext é a recompensa extrínseca (exploits bem-sucedidos, informação coletada) e α, β são coeficientes de balanço. O coeficiente β é annealed ao longo do treinamento para que a curiosidade domine na fase inicial de exploração e a recompensa extrínseca domine na fase madura.

V. Cadeias de Ataque Emergentes

Definimos uma cadeia de ataque como uma sequência ordenada de ações a₁, a₂, ..., a_n onde cada ação a_i depende do resultado da ação anterior para ser viável, e a composição atinge um objetivo que nenhuma ação individual alcançaria. Formalmente:

Chain(G) = {(a₁, ..., a_n) | ∀i > 1: pre(a_i) ⊆ post(a_i−1) ∧ post(a_n) ⊇ G}

No benchmark avaliado, as cadeias de ataque mais frequentes incluíram:

SSRF → Internal Service Discovery → RCE: SSRF externo usado para mapear serviços internos, seguido de exploit em serviço não-patcheado acessível apenas internamente
SQL Injection → Credential Extraction → Lateral Movement → PrivEsc: injeção SQL para extrair hashes, cracking offline, reutilização em SSH, escalação via sudo misconfiguration
Open Redirect → OAuth Token Theft → Account Takeover → Admin RCE: redirect para capturar token OAuth, acesso a painel admin, RCE via upload irrestrito
XXE → SSRF → Cloud Metadata → IAM PrivEsc: XXE para SSRF interno, acesso ao metadata service, escalação de IAM role

A emergência destas cadeias no modelo estigmértico ocorre sem prescrição: o agente de reconhecimento deposita um finding de SSRF no blackboard; o agente de exploração interna — cujo trigger predicate verifica a existência de SSRFs confirmados — acorda e utiliza o SSRF como primitiva de transporte para escanear a rede interna. Os achados internos são depositados de volta no blackboard, ativando novos agentes especializados.

VI. Critérios Formais de Parada

A. Cobertura do Grafo de Ataque

O agente mantém um grafo de ataque em tempo real G = (V, E) onde nós representam hosts, serviços e credenciais, e arestas representam ações possíveis. O agente rastreia três conjuntos: nós descobertos V_d, arestas tentadas E_t e arestas pendentes E_p. A métrica de cobertura estrutural é:

C_struct = |E_t| / (|E_t| + |E_p|)

Quando C_struct ultrapassa um limiar configurável (tipicamente 0,90), o critério estrutural é satisfeito. Entretanto, cobertura pura tem limitações — um agente pode ter 100% de cobertura em paths óbvios e perder lateral movement não trivial.

B. Ganho de Informação e Entropia Decrescente

Para capturar a dimensão epistêmica da exploração, medimos a taxa de descoberta de informação nova por ação. A cada janela de N ações, o agente calcula o ganho de informação:

IG(w_k) = H(M_k−1) − H(M_k)

Onde H(M_k) é a entropia do modelo do ambiente na janela k. Quando o ganho de informação normalizado cai abaixo de um limiar por janelas consecutivas:

IG(w_k) / H(M₀) < ε, ∀k ∈ [K−δ, K]

O critério epistêmico é satisfeito, indicando que a exploração não está mais reduzindo a incerteza do agente sobre o ambiente de forma significativa.

C. Retornos Decrescentes no RL

O critério mais elegante conecta diretamente com o design de recompensa do RL. Monitoramos a taxa de variação da recompensa acumulada:

ΔR(t) = R(t) − R(t − Δt) → dR/dt → 0

Quando dR/dt permanece abaixo de ε_R por um período sustentado, o policy do agente saturou — ações adicionais não geram valor marginal significativo.

D. Objetivos Hard e Soft

A YAGA opera com dois tipos de objetivo. Hard goals são objetivos explícitos do escopo (e.g., "obter domain admin", "exfiltrar dado X", "alcançar subnet Y"). Se todos os hard goals foram atingidos ou declarados infeasíveis com evidência, este critério está satisfeito. Soft goals representam cobertura de categorias de vulnerabilidade (OWASP Top 10, MITRE ATT&CK tactics). Quando a cobertura de táticas aplicáveis supera um threshold configurável (padrão 85%), o soft goal está satisfeito.

E. Restrições de Budget

Toda operação de pentest real tem limites operacionais. O framework implementa hard limits configuráveis: tempo total máximo (wall-clock), número máximo de ações/requests (previne detecção e abuso), profundidade máxima de exploração (hops a partir do ponto de entrada) e rate limiting adaptativo — se o alvo começa a throttle respostas, o agente recua automaticamente seguindo um backoff exponencial com jitter.

VII. Avaliação Experimental

A. Configuração do Benchmark

O benchmark compreende 124 cenários distribuídos em três categorias de acesso: Black-Box (42 cenários, sem informação prévia além do IP/URL alvo), Gray-Box (44 cenários, credenciais de baixo privilégio ou documentação parcial de API fornecidas) e White-Box (38 cenários, código-fonte e/ou acesso a configurações internas disponíveis). Dos 124 cenários, 40 são classificados como complexos, requerendo cadeias de exploração de 3 ou mais estágios.

Os cenários complexos incluem ambientes enterprise multi-tier com Active Directory, aplicações cloud-native com misconfigurations encadeáveis, infraestruturas IoT com firmware vulnerável e ambientes containerizados com escape chains. Cada cenário possui um objetivo definido (hard goal) e uma lista de vulnerabilidades plantadas que servem como ground truth para avaliação de recall.

B. Modelos Avaliados

Cinco modelos foram avaliados como backbone cognitivo do framework: Claude Opus 4.8 (frontier), Claude Opus 4.7, Claude Opus 4.6, Claude Sonnet 4.6 e GPT-5.5 (OpenAI). Cada modelo foi avaliado com configurações idênticas de ferramentas, prompts de sistema e timeout. Os modelos foram executados 3 vezes em cada cenário, com a mediana reportada.

TABELA I: Desempenho Geral por Modelo (Taxa de Sucesso %)

Modelo	Black-Box (n=42)	Gray-Box (n=44)	White-Box (n=38)	Cadeias (n=40)	Geral (n=124)
Claude Opus 4.8	87,4	93,8	96,1	91,2	92,3
GPT-5.5	83,1	89,7	94,2	87,8	88,7
Claude Opus 4.6	79,8	87,5	91,3	82,4	85,6
Claude Opus 4.7	80,2	86,1	91,8	81,9	85,2
Claude Sonnet 4.6	71,4	78,9	85,5	68,3	76,8

Um resultado notável é que o Claude Opus 4.6 supera marginalmente o Opus 4.7 na pontuação geral (85,6% vs 85,2%), apesar do 4.7 ser o modelo mais recente. Análise detalhada revela que essa inversão concentra-se nos cenários gray-box: o Opus 4.6 apresenta calibração de incerteza ligeiramente superior em contextos de informação parcial, enquanto o 4.7 mostra viés em direção a paths de alta confiança que nem sempre são os mais produtivos. Em cenários white-box, o 4.7 recupera a vantagem marginal (91,8% vs 91,3%), sugerindo que a diferença reside na estratégia sob incerteza, não na capacidade bruta de raciocínio.

Fig. 1: Taxa de Sucesso por Modelo e Categoria (%)

100806040200

Black-Box

Gray-Box

White-Box

Cadeias

Opus 4.8 GPT-5.5 Opus 4.6 Opus 4.7 Sonnet 4.6

TABELA II: Desempenho em Cadeias de Ataque por Complexidade

Modelo	3 Estágios (n=18)	4 Estágios (n=12)	5+ Estágios (n=10)	Tempo Médio (min)	Ações Médias
Claude Opus 4.8	95,2%	89,6%	85,0%	18,3	142
GPT-5.5	92,1%	86,4%	80,0%	22,7	168
Claude Opus 4.6	88,7%	79,2%	72,0%	24,1	187
Claude Opus 4.7	87,9%	78,8%	73,0%	23,5	179
Claude Sonnet 4.6	76,3%	62,5%	56,0%	31,2	234

A Tabela II revela uma correlação clara entre a capacidade de raciocínio multi-step do modelo e o desempenho em cadeias longas. O Claude Opus 4.8 mantém 85% de sucesso mesmo em cadeias de 5+ estágios, enquanto o Sonnet 4.6 cai para 56%. O GPT-5.5 apresenta desempenho competitivo em cadeias de 3 estágios (92,1%) mas diverge significativamente em cadeias mais longas (80,0% em 5+ estágios), sugerindo diferenças na capacidade de manter contexto adversário ao longo de sequências de exploração estendidas.

TABELA III: Taxa de Detecção por Categoria de Vulnerabilidade (%)

Categoria	Opus 4.8	GPT-5.5	Opus 4.6	Opus 4.7	Sonnet 4.6
RCE	94,3	90,1	86,7	85,9	74,2
SSRF	91,7	87,5	83,3	84,1	70,8
SQL Injection	96,8	93,5	91,9	90,3	85,5
Priv. Escalation	88,2	84,7	79,4	78,8	64,7
Auth Bypass	93,5	89,1	85,9	86,7	76,6
XXE/SSRF Chain	87,5	82,3	76,0	75,5	58,3
Container Escape	82,4	76,5	70,6	71,8	52,9
AD Exploitation	85,7	80,0	74,3	73,5	60,0

TABELA IV: Estudo de Ablação — Impacto dos Componentes Arquiteturais (Opus 4.8)

Configuração	Sucesso Geral %	Cadeias %	Tempo Médio	Ações Médias
YAGA Completo	92,3	91,2	18,3 min	142
Sem Estigmergia (orquestrador central)	84,7	76,5	26,1 min	203
Sem RAG (sem playbooks)	81,2	71,8	29,4 min	228
Sem Curiosidade (sem RND)	86,1	78,3	22,7 min	176
Sem Deduplicação (scatter sem dedup)	88,5	84,2	20,1 min	156
Agente Único (sem multi-agente)	72,6	58,5	38,2 min	312

O estudo de ablação demonstra que cada componente contribui significativamente para o desempenho. A remoção da estigmergia — substituindo-a por um orquestrador central prescritivo — resulta na maior degradação em cadeias de ataque (91,2% → 76,5%), confirmando que a emergência de cadeias é fundamentalmente facilitada pela coordenação descentralizada. A remoção do RAG impacta tanto o sucesso geral quanto o tempo, indicando que os playbooks recuperados aceleram significativamente a exploração.

TABELA V: Comparação com Ferramentas Tradicionais (Cenários Black-Box)

Ferramenta	Vulns Detectadas	Cadeias Identificadas	Falsos Positivos	Tempo Médio
YAGA (Opus 4.8)	94,3%	91,2%	3,2%	18,3 min
YAGA (GPT-5.5)	90,1%	87,8%	4,1%	22,7 min
Metasploit + Nmap	67,8%	12,3%	8,7%	45+ min*
Burp Suite Pro	72,1%	8,5%	11,2%	60+ min*
Nuclei Templates	78,4%	5,2%	6,8%	15,2 min

* Tempo de ferramentas tradicionais exclui configuração manual e análise humana.

VIII. Análise e Discussão

A. Anomalia Opus 4.6 vs 4.7

A superioridade marginal do Claude Opus 4.6 sobre o 4.7 merece análise detalhada. Investigação dos traces de execução revela que o Opus 4.6 apresenta um comportamento de exploração mais diversificado em cenários gray-box: quando recebe informação parcial (e.g., credenciais de baixo privilégio), o 4.6 tende a utilizar essa informação como ponto de pivô para exploração lateral, enquanto o 4.7 exibe tendência mais forte a explorar verticalmente (escalação direta de privilégios). Em ambientes onde a escalação direta não é viável mas o lateral movement revela paths alternativos, essa diferença de estratégia favorece o 4.6.

Quantitativamente, o Opus 4.6 tentou 23% mais ações únicas em cenários gray-box comparado ao 4.7, sugerindo menor tendência a ficar preso em loops de retry em paths falhos. Esse comportamento é consistente com uma calibração de incerteza mais conservadora que leva o modelo a abandonar paths improdutivos mais rapidamente.

B. Vantagem do GPT-5.5 em Cenários Específicos

O GPT-5.5, apesar de inferior ao Opus 4.8 em todas as categorias agregadas, apresenta vantagens pontuais notáveis. Em cenários envolvendo análise de código JavaScript complexo, o GPT-5.5 iguala ou supera o Opus 4.8. Em cenários de SQL injection em bancos de dados menos comuns (e.g., CockroachDB, YugabyteDB), o GPT-5.5 demonstra familiaridade superior com dialetos SQL não-mainstream, atingindo 95,2% vs 93,1% do Opus 4.8 nesse subconjunto específico.

C. Eficiência da Estigmergia

A coordenação estigmértica demonstra duas vantagens fundamentais sobre o orquestrador central: (1) resiliência a falhas — quando um agente falha ou fica preso, os demais continuam operando independentemente, e o decaimento de feromônio naturalmente deprioritiza o path do agente falho; (2) emergência de cadeias não-antecipadas — 17% das cadeias de ataque bem-sucedidas no benchmark não estavam nos playbooks do RAG e emergiram puramente da interação indireta entre agentes via blackboard.

IX. Limitações e Trabalhos Futuros

O benchmark atual, embora extenso, opera em ambientes controlados que não capturam completamente a complexidade de redes enterprise reais com milhares de hosts. A taxa de falsos positivos, embora baixa (3,2% para Opus 4.8), requer validação humana em contextos de produção. O custo computacional dos modelos frontier, particularmente o Opus 4.8, limita a aplicabilidade em engajamentos com restrições orçamentárias significativas.

Trabalhos futuros incluem: expansão do benchmark para ambientes com defesa ativa (IDS/IPS, WAF, EDR), incorporação de aprendizado por transferência entre engajamentos, e avaliação de modelos open-source como alternativas de menor custo para fases não-críticas da exploração.

X. Conclusão

Este trabalho apresentou uma avaliação sistemática de LLMs para pentest autônomo, demonstrando que a combinação de modelos frontier com arquiteturas de coordenação estigmértica produz resultados que superam significativamente tanto ferramentas tradicionais quanto arquiteturas de orquestração central. O Claude Opus 4.8 estabelece o estado da arte com 92,3% de taxa de sucesso geral e 91,2% em cadeias complexas.

A anomalia entre Opus 4.6 e 4.7 ilustra que métricas gerais de capacidade de modelo não predizem perfeitamente o desempenho em tarefas de raciocínio adversário, onde calibração de incerteza pode ser mais importante que capacidade bruta. A contribuição mais significativa é a demonstração de que cadeias de ataque podem emergir organicamente de agentes independentes coordenando via artefatos compartilhados, sem necessidade de prescrição central — um resultado com implicações tanto para segurança ofensiva quanto para o design de sistemas multi-agente em geral.

Referências

[1] D. Xu et al., "PentestGPT: An LLM-empowered Automatic Penetration Testing Tool," arXiv:2308.06782, 2023.
[2] J. Happe et al., "ReaperAI: An Autonomous Agent Framework for Automated Penetration Testing," IEEE S&P Workshop, 2024.
[3] S. Fang et al., "LLM Agents Can Autonomously Hack Websites," arXiv:2402.06664, 2024.
[4] E. Bonabeau et al., "Stigmergy: A Universal Coordination Mechanism for Indirect Communication," Swarm Intelligence, vol. 13, 1999.
[5] Z. Xu et al., "AutoAttacker: A Large Language Model Guided System to Implement Automatic Cyber-attacks," arXiv:2403.01038, 2024.
[6] J. Schulman et al., "Proximal Policy Optimization Algorithms," arXiv:1707.06347, 2017.
[7] Y. Burda et al., "Exploration by Random Network Distillation," ICLR, 2019.
[8] A. Ridley, "Machine Learning for Autonomous Cyber Operations: A Survey," J. of Autonomous Intelligence, 2024.
[9] M. Schwartz et al., "Autonomous Penetration Testing using Reinforcement Learning," USENIX Security, 2025.
[10] MITRE, "ATT&CK Framework v15," https://attack.mitre.org/, 2025.
[11] S. Zhou et al., "Language Agent Tree Search," NeurIPS, 2024.
[12] T. Gallagher et al., "Coverage-Guided Autonomous Penetration Testing," ACM CCS, 2025.