Argonalyst

Avaliação de Modelos de Linguagem em Evolução Rápida

Argonalyst
8 June 2025

Recentemente, o cenário dos Modelos de Linguagem de Grande Escala (LLMs) tem evoluído de forma impressionante. Inicialmente, eu havia planejado uma sessão intitulada "O último ano em LLMs", mas com o ritmo acelerado das inovações, cobrir apenas os últimos seis meses já se tornou um desafio considerável.

Nos últimos seis meses, mais de 30 modelos significativos foram lançados, todos merecendo a atenção de quem atua nesse campo. Este crescimento vertiginoso levanta questões sobre como avaliar adequadamente esses modelos e determinar quais são os mais eficazes.

Embora existam diversos benchmarks repletos de dados, pessoalmente, não vejo grande utilidade nesses números. Além disso, as tabelas de liderança, que costumavam ser uma referência, têm perdido minha confiança ao longo do tempo.

Diante desse cenário, percebo que cada profissional deve desenvolver seu próprio sistema de avaliação. O meu, que começou como uma brincadeira, está se mostrando surpreendentemente útil para entender melhor os modelos disponíveis.

Últimos vídeos

Confira os últimos vídeos publicados no canal

Argonalyst

O que é "Vibe Hacking"?

Argonalyst

Como incorporar custos de IA em apps e sistemas? Cursor está em apuros!

Argonalyst

Engenheiro de Software passa em 70 entrevistas e mantém 5 empregos simultâneos, como ele fez isso?

Argonalyst

Corrida insana por cérebros em IA: $100 milhões e a fuga em massa da OpenAI

Argonalyst

Sam Altman em CRISE, segredos do Extermínio 3, NOVOS modelos de IA do Google, e muito mais!

Argonalyst

Por que o Software 3.0 é o maior salto da computação?

Argonalyst

No-Code vs Vibe-Code: Quem domina a automação instantânea?

Argonalyst

🚨 Tecnologias FORA de controle, RECORDE do Cursor e VAZAMENTO da IA secreta Kingfall do Google

Argonalyst

"Vibe Coding" é o Futuro? Veja as ferramentas que estou usando

Argonalyst

CPI da Íris, Vigilância e IA: A realidade assustadora que está se formando agora

Argonalyst

Claude 4 SURPREENDE na programação, e a OpenAI quer COMPETIR com iPhone?

Argonalyst

Google está de volta! Gemini Ultra, VEO 3, Agentes de IA, e muito mais!

Argonalyst

Sam Altman alerta: a IA ainda pode evoluir 100x — entenda o que vem aí

Argonalyst

Criando App Front/Back-end com IA sem tocar em uma linha de código

Argonalyst

O lado OCULTO da IA: Por que ela pode estar AUMENTANDO sua carga de trabalho