Voxtral Transcribe 2: Novos Modelos de Transcrição e Diarização

Hoje, apresentamos o Voxtral Transcribe 2, que inclui dois modelos de reconhecimento de fala de última geração, proporcionando qualidade excepcional de transcrição, diarização e latência ultra-baixa. A nova linha conta com o Voxtral Mini Transcribe V2, voltado para transcrições em lote, e o Voxtral Realtime, ideal para aplicações ao vivo. Este último é disponibilizado com pesos abertos sob a licença Apache 2.0.

Uma das grandes novidades é o playground de áudio no Mistral Studio, onde os usuários podem testar a transcrição instantaneamente, utilizando a tecnologia do Voxtral Transcribe 2, com recursos de diarização e timestamps.

Dentre os principais destaques, o Voxtral Mini Transcribe V2 se destaca por sua eficácia na transcrição com diarização de falantes, viés de contexto e timestamps de palavras em 13 idiomas. Por outro lado, o Voxtral Realtime foi projetado para transcrições ao vivo, permitindo uma latência ajustável a menos de 200 ms, ideal para agentes de voz e aplicações em tempo real.

O Voxtral Realtime é especialmente desenvolvido para situações em que a latência é crucial. Ao contrário de modelos que processam áudio em pedaços, ele utiliza uma nova arquitetura de streaming, transcrevendo o áudio à medida que chega. Isso resulta em uma transcrição com atraso configurável, possibilitando um novo tipo de aplicação focada em voz.

O Voxtral Mini Transcribe V2 apresenta melhorias significativas na qualidade de transcrição e diarização. Com uma taxa de erro de palavras em torno de 4% e um custo de $0.003 por minuto, oferece a melhor relação custo-benefício entre as APIs de transcrição disponíveis. Ele se destaca em comparação com modelos como GPT-4o mini Transcribe e Gemini 2.5 Flash, processando áudio até três vezes mais rápido que o Scribe v2 da ElevenLabs, mantendo a qualidade a um quinto do custo.

Entre os recursos do Voxtral Mini Transcribe 2, estão a diarização de falantes, que gera transcrições com rótulos de falantes e tempos precisos de início e fim, além do viés de contexto que permite fornecer termos específicos para guiar a transcrição. A robustez em ambientes ruidosos e a capacidade de processar gravações de até 3 horas em uma única solicitação são também diferenciais importantes.

O novo playground de áudio permite que os usuários testem o Voxtral Transcribe 2 no Mistral Studio, fazendo upload de até 10 arquivos de áudio e ajustando as configurações de diarização e granularidade de timestamps. Suporta formatos como .mp3, .wav, .m4a, .flac, e .ogg, com limite de 1GB por arquivo.

O Voxtral está transformando aplicações de voz em diversas indústrias. Ele é ideal para inteligência em reuniões, agentes virtuais, automação em call centers e geração de legendas multilíngues em tempo real. Ambos os modelos são compatíveis com as regulamentações GDPR e HIPAA, podendo ser implementados em ambientes seguros.

O Voxtral Mini Transcribe V2 está disponível por API a $0.003 por minuto, enquanto o Voxtral Realtime pode ser acessado por $0.006 por minuto. Para mais informações, consulte a documentação disponível sobre as capacidades de áudio e transcrição do Mistral. Além disso, a equipe está em busca de novos talentos apaixonados por inteligência artificial de fala.