VibeVoice: frontier голосовые модели

источник ↗ · 3 мая 2026, 23:12

VibeVoice — семейство open-source моделей TTS и ASR от Microsoft для обработки длинных аудио до 90 мин с поддержкой multi-speaker, timestamps и custom context.

vibevoice tts asr speech-recognition text-to-speech long-form-audio multi-speaker huggingface

AI Summary

🚀 VibeVoice — семейство open-source моделей голосового ИИ (TTS и ASR) от Microsoft, фокусирующееся на обработке длинных аудио (до 60 мин для ASR, 90 мин для TTS) в single-pass режиме с высокой эффективностью благодаря continuous speech tokenizers на 7.5 Hz, next-token diffusion и LLM для контекста. Поддерживает >50 языков, multi-speaker (до 4 спикеров), diarization, timestamps, custom hotwords; интегрировано в Hugging Face Transformers, с finetuning, vLLM и playground. История: open-source TTS/ASR/Realtime (2025–2026), Oral на ICLR 2026, временное удаление TTS из-за misuse.

🔥 Ключевые фичи ASR: • 60-мин single-pass обработка в 64K токенах без потери контекста. • Rich transcription: Who (diarization), When (timestamps), What (текст). • Multilingual (>50 языков) + custom hotwords для доменов. ⚡️ Ключевые фичи TTS: • 90-мин генерация с consistency спикеров и turn-taking (до 4). • Realtime-0.5B с streaming input и multilingual voices (9+11). 📈 Инновации: Acoustic/Semantic tokenizers (7.5 Hz), diffusion head для fidelity; finetuning код, vLLM inference, Technique Report.

AI Summary

Мои мысли