VibeVoice: Inovação em Geração de Áudio Conversacional

O VibeVoice é um novo modelo de código aberto que se destaca na geração de áudio conversacional expressivo e de longa duração, como podcasts, a partir de texto. Este sistema busca resolver problemas significativos enfrentados por soluções tradicionais de Texto para Fala (TTS), especialmente nas áreas de escalabilidade, consistência entre os falantes e naturalidade nas trocas de fala.

Uma das inovações centrais do VibeVoice é a implementação de tokenizadores de fala contínua, tanto acústicos quanto semânticos, que operam em uma taxa ultra-baixa de 7,5 Hz. Essa abordagem permite preservar a fidelidade do áudio de forma eficiente, ao mesmo tempo em que aumenta consideravelmente a eficiência computacional ao processar sequências longas.

Além disso, o VibeVoice utiliza um framework de difusão de próximo token, que se aproveita de um Modelo de Linguagem de Grande Escala (LLM) para compreender o contexto textual e o fluxo do diálogo, e uma cabeça de difusão para gerar detalhes acústicos de alta fidelidade. O modelo tem a capacidade de sintetizar discursos com até 90 minutos de duração, podendo incluir até 4 falantes distintos, superando as limitações de 1 a 2 falantes comuns em muitos modelos anteriores.