Argonalyst

Voxtral Transcribe 2: Novos Modelos de Transcrição e Diarização

Argonalyst
7 February 2026

Hoje, apresentamos o Voxtral Transcribe 2, que inclui dois modelos de reconhecimento de fala de última geração, proporcionando qualidade excepcional de transcrição, diarização e latência ultra-baixa. A nova linha conta com o Voxtral Mini Transcribe V2, voltado para transcrições em lote, e o Voxtral Realtime, ideal para aplicações ao vivo. Este último é disponibilizado com pesos abertos sob a licença Apache 2.0.

Uma das grandes novidades é o playground de áudio no Mistral Studio, onde os usuários podem testar a transcrição instantaneamente, utilizando a tecnologia do Voxtral Transcribe 2, com recursos de diarização e timestamps.

Dentre os principais destaques, o Voxtral Mini Transcribe V2 se destaca por sua eficácia na transcrição com diarização de falantes, viés de contexto e timestamps de palavras em 13 idiomas. Por outro lado, o Voxtral Realtime foi projetado para transcrições ao vivo, permitindo uma latência ajustável a menos de 200 ms, ideal para agentes de voz e aplicações em tempo real.

O Voxtral Realtime é especialmente desenvolvido para situações em que a latência é crucial. Ao contrário de modelos que processam áudio em pedaços, ele utiliza uma nova arquitetura de streaming, transcrevendo o áudio à medida que chega. Isso resulta em uma transcrição com atraso configurável, possibilitando um novo tipo de aplicação focada em voz.

O Voxtral Mini Transcribe V2 apresenta melhorias significativas na qualidade de transcrição e diarização. Com uma taxa de erro de palavras em torno de 4% e um custo de $0.003 por minuto, oferece a melhor relação custo-benefício entre as APIs de transcrição disponíveis. Ele se destaca em comparação com modelos como GPT-4o mini Transcribe e Gemini 2.5 Flash, processando áudio até três vezes mais rápido que o Scribe v2 da ElevenLabs, mantendo a qualidade a um quinto do custo.

Entre os recursos do Voxtral Mini Transcribe 2, estão a diarização de falantes, que gera transcrições com rótulos de falantes e tempos precisos de início e fim, além do viés de contexto que permite fornecer termos específicos para guiar a transcrição. A robustez em ambientes ruidosos e a capacidade de processar gravações de até 3 horas em uma única solicitação são também diferenciais importantes.

O novo playground de áudio permite que os usuários testem o Voxtral Transcribe 2 no Mistral Studio, fazendo upload de até 10 arquivos de áudio e ajustando as configurações de diarização e granularidade de timestamps. Suporta formatos como .mp3, .wav, .m4a, .flac, e .ogg, com limite de 1GB por arquivo.

O Voxtral está transformando aplicações de voz em diversas indústrias. Ele é ideal para inteligência em reuniões, agentes virtuais, automação em call centers e geração de legendas multilíngues em tempo real. Ambos os modelos são compatíveis com as regulamentações GDPR e HIPAA, podendo ser implementados em ambientes seguros.

O Voxtral Mini Transcribe V2 está disponível por API a $0.003 por minuto, enquanto o Voxtral Realtime pode ser acessado por $0.006 por minuto. Para mais informações, consulte a documentação disponível sobre as capacidades de áudio e transcrição do Mistral. Além disso, a equipe está em busca de novos talentos apaixonados por inteligência artificial de fala.

Últimos vídeos

Confira os últimos vídeos publicados no canal

Argonalyst

BOLHA da IA ou NOVA era de crescimento EXPONENCIAL? O mercado está dividido

Argonalyst

Nova IA da OpenAI traduz em TEMPO REAL e pode mudar o mundo dos negócios

Argonalyst

Spec Driven Development (SDD): a habilidade que vai separar quem SOBREVIVE à IA

Argonalyst

DeepSeek V4: o Open Source que está AMEAÇANDO GPT 5.5 e Opus 4.7

Argonalyst

Prometeram Renda Universal… mas só veio desemprego?

Argonalyst

Mythos Preview: o começo da AGI ou só mais hype?

Argonalyst

Ele automatizou TUDO com IA… e pode virar bilionário sozinho

Argonalyst

Programadores foram só o começo… agora a IA quer o topo

Argonalyst

Multi-agentes, memória e IA eterna: o vazamento que mudou tudo

Argonalyst

VIBE CODING vai acabar… e o que vem agora é muito mais SINISTRO

Argonalyst

IA na Guerra: estamos criando algo mais PERIGOSO que a Bomba Atômica?

Argonalyst

O dinheiro vai desaparecer? A era da IA pode mudar tudo

Argonalyst

O Apocalipse do SaaS: Como a IA pode DESTRUIR o modelo bilionário do software

Argonalyst

Bitcoin é software… e o software está morrendo (isso explica a queda?)

Argonalyst

Google libera IA que CRIA MUNDOS 3D jogáveis (Projeto Genie)