Argonalyst

Voxtral Transcribe 2: Novos Modelos de Transcrição e Diarização

Argonalyst
7 February 2026

Hoje, apresentamos o Voxtral Transcribe 2, que inclui dois modelos de reconhecimento de fala de última geração, proporcionando qualidade excepcional de transcrição, diarização e latência ultra-baixa. A nova linha conta com o Voxtral Mini Transcribe V2, voltado para transcrições em lote, e o Voxtral Realtime, ideal para aplicações ao vivo. Este último é disponibilizado com pesos abertos sob a licença Apache 2.0.

Uma das grandes novidades é o playground de áudio no Mistral Studio, onde os usuários podem testar a transcrição instantaneamente, utilizando a tecnologia do Voxtral Transcribe 2, com recursos de diarização e timestamps.

Dentre os principais destaques, o Voxtral Mini Transcribe V2 se destaca por sua eficácia na transcrição com diarização de falantes, viés de contexto e timestamps de palavras em 13 idiomas. Por outro lado, o Voxtral Realtime foi projetado para transcrições ao vivo, permitindo uma latência ajustável a menos de 200 ms, ideal para agentes de voz e aplicações em tempo real.

O Voxtral Realtime é especialmente desenvolvido para situações em que a latência é crucial. Ao contrário de modelos que processam áudio em pedaços, ele utiliza uma nova arquitetura de streaming, transcrevendo o áudio à medida que chega. Isso resulta em uma transcrição com atraso configurável, possibilitando um novo tipo de aplicação focada em voz.

O Voxtral Mini Transcribe V2 apresenta melhorias significativas na qualidade de transcrição e diarização. Com uma taxa de erro de palavras em torno de 4% e um custo de $0.003 por minuto, oferece a melhor relação custo-benefício entre as APIs de transcrição disponíveis. Ele se destaca em comparação com modelos como GPT-4o mini Transcribe e Gemini 2.5 Flash, processando áudio até três vezes mais rápido que o Scribe v2 da ElevenLabs, mantendo a qualidade a um quinto do custo.

Entre os recursos do Voxtral Mini Transcribe 2, estão a diarização de falantes, que gera transcrições com rótulos de falantes e tempos precisos de início e fim, além do viés de contexto que permite fornecer termos específicos para guiar a transcrição. A robustez em ambientes ruidosos e a capacidade de processar gravações de até 3 horas em uma única solicitação são também diferenciais importantes.

O novo playground de áudio permite que os usuários testem o Voxtral Transcribe 2 no Mistral Studio, fazendo upload de até 10 arquivos de áudio e ajustando as configurações de diarização e granularidade de timestamps. Suporta formatos como .mp3, .wav, .m4a, .flac, e .ogg, com limite de 1GB por arquivo.

O Voxtral está transformando aplicações de voz em diversas indústrias. Ele é ideal para inteligência em reuniões, agentes virtuais, automação em call centers e geração de legendas multilíngues em tempo real. Ambos os modelos são compatíveis com as regulamentações GDPR e HIPAA, podendo ser implementados em ambientes seguros.

O Voxtral Mini Transcribe V2 está disponível por API a $0.003 por minuto, enquanto o Voxtral Realtime pode ser acessado por $0.006 por minuto. Para mais informações, consulte a documentação disponível sobre as capacidades de áudio e transcrição do Mistral. Além disso, a equipe está em busca de novos talentos apaixonados por inteligência artificial de fala.

Últimos vídeos

Confira os últimos vídeos publicados no canal

Argonalyst

Bitcoin é software… e o software está morrendo (isso explica a queda?)

Argonalyst

Google libera IA que CRIA MUNDOS 3D jogáveis (Projeto Genie)

Argonalyst

O fenômeno Clawdbot (Moltbot): por que esse projeto explodiu no GitHub

Argonalyst

Vazamento da OpenAI: o novo dispositivo com IA embutida

Argonalyst

O ponto de virada da IA aconteceu! Nvidia muda o jogo

Argonalyst

Por que ninguém falou do GPT Image 1.5? (e por que isso é um sinal enorme)

Argonalyst

O VERDADEIRO Prompt Engineering: orquestrando IAs em loop para ficar "mais inteligente"

Argonalyst

DeepSeek R1 sabota códigos se você falar "Tibete"? Veja o teste!

Argonalyst

Google Antigravity + Gemini 3: o FIM das plataformas tipo Cursor e Lovable?

Argonalyst

O Paradoxo de Jevons na IA: por que a demanda por devs pode explodir

Argonalyst

NEO Robot faz sentido? O lado oculto do "robô que faz tudo"

Argonalyst

Valve DESTRÓI o mercado de skins enquanto NOVOS jogos com IA simulam o futuro

Argonalyst

Startups vão morrer? Por que só quem tem MODELO e DADO próprio sobrevive

Argonalyst

A verdade sobre a bolha de IA: números, gráficos e o que ninguém quer admitir

Argonalyst

Testei o NOVO AgentKit da OpenAI e criei meu próprio agente de IA