Agente de IA VS Agente de Pentest

22 de junho de 2026 11 min de leitura

I. Introdução

A pergunta mudou. Não é mais “um LLM consegue fazer pentest?” A resposta para essa pergunta já é sim. Modelos de linguagem com acesso a ferramentas navegam em aplicações, enviam requisições reais, leem respostas, interpretam comportamentos e até tentam explorar vulnerabilidades. Isso é fato.

A pergunta certa é outra: existe diferença entre um agente de IA de uso geral tentando fazer pentest e um agente construído especificamente para isso? Existe. E ela é enorme.

Um Agente de Pentest real por exemplo é a Yaga, desenvolvida pela HackerSec, ela conduz o ciclo completo de um pentest de forma autônoma e é exatamente esse foco que a separa de um modelo de uso geral.

A YAGA não compete com ChatGPT ou Claude no sentido de “qual modelo é mais inteligente”. Ela representa uma categoria diferente: um sistema construído por engenheiros de IA com especialização em segurança ofensiva, onde cada camada da arquitetura foi projetada com um único objetivo em mente. Não inteligência geral. Exploração real, encadeada e validada de vulnerabilidades.

II. O que agentes de IA gerais já conseguem fazer

É importante ser honesto sobre o estado atual. Agentes construídos sobre modelos de linguagem de última geração com acesso a ferramentas já conseguem:

Navegar em aplicações web e identificar endpoints.
Enviar requisições HTTP com parâmetros variados e observar as respostas.
Reconhecer padrões de comportamento suspeito em respostas da aplicação.
Identificar ausência de headers de segurança, configurações fracas e inputs não validados.
Tentar variações de entrada para verificar se um comportamento suspeito é consistente.
Gerar hipóteses sobre vulnerabilidades a partir do que observam.

Isso é significativo. E torna os agentes gerais genuinamente úteis como apoio em tarefas de segurança.

O problema não está no que eles fazem. Está onde eles param.

III. Onde o agente geral para e onde a YAGA continua

Um agente geral de IA identifica que um endpoint se comporta de forma suspeita quando recebe um determinado input. Ele registra a observação, gera uma hipótese e produz uma saída sobre o que aquilo pode indicar.

A YAGA não para aí. Ela executa o ciclo completo.

Fig. 1 — O ciclo completo executado pela YAGA

Identifica
endpoint com comportamento suspeito

Confirma
reproduz e valida a vulnerabilidade

Encadeia
conecta o achado ao grafo de ataque

Avalia impacto
caminho real até o comprometimento

Evidência
requisições e respostas que sustentam o finding

A diferença não é de inteligência. É de propósito arquitetural. Um agente geral foi construído para completar tarefas de forma autônoma em domínios variados. Segurança ofensiva é um desses domínios, mas não é o único, e não é o principal. O modelo que opera por baixo foi treinado para ser útil em código, escrita, análise, planejamento e dezenas de outros contextos.

A YAGA foi construída para um único domínio. Cada decisão de arquitetura, cada componente, cada mecanismo de raciocínio existe para servir à exploração de vulnerabilidades. Isso muda fundamentalmente o que o sistema é capaz de fazer quando encontra um cenário complexo.

Verificação de exploração é o exemplo mais direto. Identificar que um endpoint pode ser vulnerável a SSRF é uma coisa. Confirmar que aquele SSRF alcança serviços internos específicos, que esses serviços têm interfaces exploráveis e que existe um caminho desde esse ponto até impacto real é outra completamente diferente. A YAGA fecha esse ciclo. Agentes gerais, na esmagadora maioria dos casos, não chegam lá.

IV. O modelo de mundo: lista de tarefas versus grafo de ataque

A diferença mais profunda entre um agente geral e a YAGA está em como cada um representa o ambiente que está avaliando.

Um agente geral mantém um modelo de tarefas. Ele sabe o que foi feito, o que está fazendo e o que precisa fazer. Esse modelo é suficiente para navegar, testar e registrar observações.

A YAGA mantém um grafo de ataque ativo. Não uma lista de coisas para testar, mas uma representação relacional do ambiente: endpoints com seus comportamentos, achados com suas conexões, hipóteses com seus graus de confiança, caminhos de exploração com suas dependências. Cada novo dado coletado atualiza esse grafo e pode mudar a prioridade de tudo que ainda será explorado.

Essa diferença é o que torna possível o encadeamento real de vulnerabilidades. Quando a YAGA identifica um SSRF, esse achado entra no grafo com todas as suas relações: qual endpoint o hospeda, quais serviços internos o SSRF alcança, quais outros achados estão conectados aos mesmos componentes. Se mais adiante o agente identifica um serviço interno com interface administrativa exposta, o grafo imediatamente relaciona esse dado ao SSRF já registrado e o motor de encadeamento avalia se existe um caminho de exploração combinado.

Um agente geral não tem esse modelo relacional. Ele tem contexto de conversa. A diferença entre os dois é a diferença entre uma lista de compras e um mapa da cidade.

Fig. 2 — Lista de tarefas (agente geral) vs. grafo de ataque (YAGA)

Agente geral · lista de tarefas

□ Testar endpoint A

□ Testar endpoint B

□ Verificar headers

□ Anotar resposta suspeita

□ Gerar hipótese

Itens independentes, sem relação entre si

YAGA · grafo de ataque

Endpoint

SSRF

GRAFO DE
ATAQUE

Serviço
interno

Cadeia de exploração

Cada nó conhece suas relações e dependências

V. Especialização ofensiva: metodologia que não existe em agentes gerais

Agentes gerais são treinados para ser úteis. Segurança ofensiva tem restrições éticas e legais que tornam o treinamento para exploração real fundamentalmente diferente do treinamento para helpfulness geral.

A YAGA incorpora metodologia ofensiva em cada camada do seu raciocínio. Não como um conjunto de regras adicionadas por cima de um modelo geral, mas como a estrutura central de como o agente pensa sobre o ambiente que está avaliando.

Isso se manifesta em decisões que um agente geral simplesmente não toma de forma natural:

Controle operacional de ritmo. Um agente geral que testa uma aplicação pode disparar requisições em volume suficiente para acionar alertas de WAF ou sistemas de detecção de anomalia. A YAGA controla ativamente o ritmo e o padrão das suas interações com o ambiente alvo, operando dentro de parâmetros que não comprometem a operação nem a confidencialidade do engajamento.
Priorização por superfície de impacto. Quando um agente geral encontra um endpoint suspeito, ele o testa. Quando a YAGA encontra um endpoint suspeito, ela avalia o que aquele endpoint representa no contexto do sistema como um todo, qual é o impacto potencial de uma vulnerabilidade naquele ponto e se existe um caminho de escalada a partir dele antes de decidir como abordar o teste.
Módulos por domínio. Fintech tem padrões específicos de vulnerabilidade que diferem de e-commerce, que diferem de sistemas de saúde. A YAGA tem módulos especializados por vertical que carregam conhecimento específico do domínio: quais fluxos são mais críticos, quais tipos de falha são mais comuns, quais comportamentos merecem atenção imediata. Um agente geral não tem essa camada de especialização.
Gestão de credenciais e contexto de sessão. Pentest real envolve múltiplos perfis, tokens que expiram, fluxos de autenticação que precisam ser reexecutados e contextos de sessão que afetam o que cada endpoint retorna. A YAGA gerencia esse estado como parte da sua operação. Agentes gerais tratam sessão como um detalhe periférico.

VI. Paralelismo e infraestrutura: escala que muda o resultado

Agentes gerais operam em um único fluxo de raciocínio. Eles fazem uma coisa por vez, mesmo que rapidamente. Em uma aplicação com centenas de endpoints, múltiplos perfis de usuário, APIs internas e fluxos de integração, isso cria um teto de cobertura.

A YAGA opera com múltiplos agentes especializados em paralelo sobre infraestrutura dedicada. Enquanto um agente mapeia novos endpoints, outro está testando autorização nos endpoints já mapeados. Enquanto um agente valida um achado, outro está construindo hipóteses sobre os próximos vetores. A operação não tem fila. Ela tem coordenação.

Essa diferença de arquitetura se traduz em cobertura real. Não porque a YAGA seja mais inteligente por requisição, mas porque ela consegue manter múltiplos fluxos de raciocínio especializados operando simultaneamente sobre o mesmo ambiente, com todos eles alimentando o mesmo grafo de ataque central.

Em termos práticos: o que um agente geral cobre em dias de operação, a YAGA cobre em horas. E cobre com maior profundidade porque cada agente especializado aplica lógica específica ao seu domínio em vez de lógica geral aplicada a tudo.

VII. O problema da alucinação em contexto de segurança

Modelos de linguagem alucinam. Isso é amplamente documentado e os melhores modelos atuais reduziram significativamente esse problema, mas não o eliminaram.

Em segurança ofensiva, alucinação tem consequências específicas que não existem em outros contextos. Um falso positivo em um relatório de pentest não é apenas um dado incorreto. É um achado que a equipe de desenvolvimento vai investigar, que vai consumir tempo de engenharia, que vai aparecer em uma reunião de gestão de risco e que, se o padrão se repetir, vai destruir a credibilidade do programa de segurança.

A YAGA foi construída com mecanismos de verificação que não existem em agentes gerais. Cada achado precisa ser confirmado por evidência real: a sequência de requisições que demonstra o comportamento, a resposta da aplicação que confirma a exploração, o impacto observado que valida a severidade. Nenhum achado entra no relatório sem passar por esse ciclo.

Agentes gerais produzem outputs. A YAGA produz evidências.

VIII. O que isso significa para organizações

A escolha entre usar um agente de IA geral e operar a YAGA não é uma escolha entre caro e barato ou entre complexo e simples. É uma escolha sobre o que a organização quer validar.

Se o objetivo é ter apoio automatizado para tarefas de segurança, triagem de achados ou geração de relatórios, agentes gerais têm valor real. Eles são versáteis, acessíveis e melhoram continuamente.

Se o objetivo é saber, com evidência, se a aplicação é explorável, até onde um atacante chegaria e qual é o caminho real de comprometimento naquele ambiente específico, um agente geral não fecha esse ciclo. A YAGA fecha.

TABELA I: Síntese — Agente de IA Geral vs. YAGA

Dimensão	Agente de IA geral	YAGA
Modelo de mundo	Lista de tarefas / contexto de conversa	Grafo de ataque relacional
Verificação de exploração	Gera hipótese e para	Fecha o ciclo com evidência
Encadeamento de vulnerabilidades	Limitado	Encadeamento relacional ativo
Especialização ofensiva	Helpfulness geral	Metodologia ofensiva em cada camada
Controle operacional	Pode acionar WAF / alertas	Ritmo e padrão controlados
Conhecimento por domínio	Genérico	Módulos por vertical (fintech, e-commerce, saúde)
Execução	Fluxo único, sequencial	Múltiplos agentes em paralelo
Cobertura típica	Dias	Horas
Saída	Outputs	Evidências validadas

A diferença não é de tecnologia de base. É de propósito, especialização e arquitetura. E em segurança ofensiva, propósito importa mais do que inteligência geral.

IX. Conclusão

LLMs com ferramentas já fazem pentest parcial. Isso não é argumento contra a YAGA. É o ponto de partida da conversa certa.

O que um agente geral faz bem, a YAGA faz igualmente bem e com mais profundidade de domínio. O que um agente geral não fecha, a YAGA foi construída para fechar: verificação de exploração, encadeamento relacional de achados, controle operacional, paralelismo especializado e evidência que sustenta cada finding.

Inteligência geral e especialização ofensiva não são a mesma coisa. A YAGA foi construída especialmente para especialização ofensiva.