Argonalyst

Desempenho do GLM 5.2 da Zhipu AI na Detecção de IDORs

Argonalyst
29 June 2026

Recentemente, realizamos uma série de testes com modelos populares de código aberto utilizando nosso benchmark de IDOR, com o mesmo conjunto de dados e o mesmo prompt que empregamos para avaliar agentes de codificação de ponta. O resultado foi surpreendente: o modelo GLM 5.2 da Zhipu AI, um modelo de pesos abertos, obteve uma pontuação de 39% no F1 para detecção de IDOR, superando Claude Code, que alcançou 32%, a um custo de aproximadamente $0.17 por vulnerabilidade encontrada. Apesar de ainda estar atrás do pipeline multimodal do Semgrep, que obteve entre 53% e 61% de F1, vale ressaltar que este último opera em um ambiente projetado especificamente para essa finalidade, realizando grande parte do trabalho pesado.

Nosso objetivo não era coroar um campeão de pesos abertos, mas sim responder uma pergunta mais específica: qual a contribuição do modelo para o desempenho na detecção de vulnerabilidades e quanto vem do suporte estrutural em torno dele? Para nós, do Semgrep, essa é uma questão crucial, especialmente ao conversarmos com clientes que utilizam agentes de IA em suas tarefas de segurança. O suporte, que chamamos de harness, é a estrutura que envolve o modelo, alimentando-o com o repositório, decidindo o que ele vê, analisando sua saída e organizando suas tarefas. Nossa solução interna multimodal foi testada anteriormente, visando a detecção de IDORs, que representam problemas de controle de acesso, como "acessar algo que pertence a outro usuário".

O GLM 5.2, que foi introduzido ao público em 13 de junho de 2026, possui três características que o tornam interessante para trabalhos de segurança. Primeiro, ele é um modelo de pesos abertos sob a licença MIT, permitindo que equipes de segurança o executem em seus próprios ambientes. Segundo, possui desempenho competitivo em codificação, sendo um modelo Mixture-of-Experts (MoE) com aproximadamente 750 bilhões de parâmetros, mas apenas cerca de 40 bilhões ativos por token, o que reduz os custos de inferência. Por último, o custo é um fator importante, com preços cerca de um sexto dos modelos de ponta comparáveis.

Durante os testes, mantivemos constantes o dataset de IDOR, o método de avaliação e o prompt do sistema IDOR, variando apenas o modelo e sua estrutura de suporte. O modelo Semgrep Multimodal foi testado em nosso harness personalizado, enquanto os modelos de pesos abertos, incluindo GLM 5.2, MiniMax M3 e Kimi K2.7, foram executados em um simples harness Pydantic, recebendo apenas o prompt de IDOR.

Os resultados foram intrigantes. Em termos de pontuação F1 para detecção de IDOR, o Semgrep Multimodal liderou com 61%, seguido por 53% do modelo Opus 4.8. O GLM 5.2 conseguiu surpreendentemente 39%, superando Claude Code, que obteve 32%. Essa performance de um modelo de pesos abertos, sem suporte estrutural, em uma tarefa de segurança que exige raciocínio, é notável. Além disso, a economia de custos para detecção pode ser decisiva para a escalabilidade de técnicas de segurança, considerando que a execução pode envolver milhares de endpoints.

Esses achados não apenas validam nossa abordagem, mas também oferecem um novo olhar sobre o potencial dos modelos de pesos abertos em ambientes de segurança.

Últimos vídeos

Confira os últimos vídeos publicados no canal

Argonalyst

Midjourney quer ESCANEAR humanos e o Open Source já rivaliza com Claude Opus

Argonalyst

Rio 3.5 e Fable 5: as duas polêmicas que expõem o futuro da IA

Argonalyst

Fim dos PCs como conhecemos: Nvidia, Microsoft e IA local vão mudar tudo

Argonalyst

O plano SECRETO das Big Techs para cobrar MUITO mais pela IA

Argonalyst

BOLHA da IA ou NOVA era de crescimento EXPONENCIAL? O mercado está dividido

Argonalyst

Nova IA da OpenAI traduz em TEMPO REAL e pode mudar o mundo dos negócios

Argonalyst

Spec Driven Development (SDD): a habilidade que vai separar quem SOBREVIVE à IA

Argonalyst

DeepSeek V4: o Open Source que está AMEAÇANDO GPT 5.5 e Opus 4.7

Argonalyst

Prometeram Renda Universal… mas só veio desemprego?

Argonalyst

Mythos Preview: o começo da AGI ou só mais hype?

Argonalyst

Ele automatizou TUDO com IA… e pode virar bilionário sozinho

Argonalyst

Programadores foram só o começo… agora a IA quer o topo

Argonalyst

Multi-agentes, memória e IA eterna: o vazamento que mudou tudo

Argonalyst

VIBE CODING vai acabar… e o que vem agora é muito mais SINISTRO

Argonalyst

IA na Guerra: estamos criando algo mais PERIGOSO que a Bomba Atômica?