Argonalyst

Lançamento da linha Qwen3.5 da Alibaba com desempenho superior em raciocínio multimodal

Argonalyst
13 March 2026

A Alibaba lançou recentemente a nova linha de modelos Qwen3.5, que inclui variantes como Qwen3.5-35B-A3B, 27B, 122B-A10B e 397B-A17B, além da nova série Small: Qwen3.5-0.8B, 2B, 4B e 9B. Esses modelos são projetados para oferecer desempenho superior em tarefas de raciocínio multimodal e suportam um contexto de 256K em 201 idiomas, destacando-se em codificação, visão, chat e tarefas de longo contexto.

Os modelos Qwen3.5-35B e 27B requerem dispositivos com 22GB de RAM. A empresa destacou que todos os uploads utilizam o Unsloth para desempenho de quantização de ponta, permitindo que as versões de 4 bits tenham camadas importantes convertidas para 8 ou 16 bits. Os usuários podem ativar ou desativar o modo de raciocínio, que está desativado por padrão nas versões Small.

Em termos de requisitos de hardware, a tabela de inferência revela as necessidades em relação à memória total (RAM + VRAM). Por exemplo, os modelos de 3 bits podem ser utilizados em sistemas com 192GB de RAM. Já a versão de 4 bits, que utiliza a quantização dinâmica do Unsloth, tem um tamanho de arquivo em disco de aproximadamente 214GB, sendo compatível com sistemas de 256GB.

A empresa recomenda que, entre os modelos 27B e 35B-A3B, os usuários escolham o 27B para resultados ligeiramente mais precisos em dispositivos com capacidade limitada. Para configurações ideais, o comprimento máximo do contexto é de 262.144, que pode ser estendido para 1M através do YaRN.

O Qwen3.5-397B-A17B compete em termos de desempenho com outros modelos de ponta, como Gemini 3 Pro e GPT-5.2. A Alibaba disponibilizou instruções detalhadas para o uso dos modelos, incluindo a configuração de parâmetros para tarefas específicas, como tarefas de codificação precisa e raciocínio geral.

A linha Qwen3.5 também oferece tutoriais de inferência, utilizando variantes de 4 bits para cargas de trabalho. As instruções incluem a obtenção do código mais recente do llama.cpp e a configuração necessária para executar os modelos localmente. Com o uso do Unsloth e a quantização dinâmica, a Alibaba afirma que é possível obter um desempenho ideal em dispositivos com diferentes capacidades de RAM.

Os benchmarks recentes mostram que os modelos Qwen3.5-35B e 397B-A17B mantêm uma taxa de precisão de 81,3%, com variações mínimas em relação aos pesos originais. As versões quantizadas demonstram resultados comparáveis, permitindo uma redução significativa na utilização de memória sem perda prática de desempenho nas tarefas avaliadas.

Últimos vídeos

Confira os últimos vídeos publicados no canal

Argonalyst

BOLHA da IA ou NOVA era de crescimento EXPONENCIAL? O mercado está dividido

Argonalyst

Nova IA da OpenAI traduz em TEMPO REAL e pode mudar o mundo dos negócios

Argonalyst

Spec Driven Development (SDD): a habilidade que vai separar quem SOBREVIVE à IA

Argonalyst

DeepSeek V4: o Open Source que está AMEAÇANDO GPT 5.5 e Opus 4.7

Argonalyst

Prometeram Renda Universal… mas só veio desemprego?

Argonalyst

Mythos Preview: o começo da AGI ou só mais hype?

Argonalyst

Ele automatizou TUDO com IA… e pode virar bilionário sozinho

Argonalyst

Programadores foram só o começo… agora a IA quer o topo

Argonalyst

Multi-agentes, memória e IA eterna: o vazamento que mudou tudo

Argonalyst

VIBE CODING vai acabar… e o que vem agora é muito mais SINISTRO

Argonalyst

IA na Guerra: estamos criando algo mais PERIGOSO que a Bomba Atômica?

Argonalyst

O dinheiro vai desaparecer? A era da IA pode mudar tudo

Argonalyst

O Apocalipse do SaaS: Como a IA pode DESTRUIR o modelo bilionário do software

Argonalyst

Bitcoin é software… e o software está morrendo (isso explica a queda?)

Argonalyst

Google libera IA que CRIA MUNDOS 3D jogáveis (Projeto Genie)