model-releasesimonw · 28. April 2026

Microsoft VibeVoice: Neues Whisper-ähnliches Audio-Modell mit Speaker-Trennung

Microsoft hat VibeVoice veröffentlicht, ein MIT-lizenziertes Speech-to-Text-Modell im Whisper-Stil mit eingebauter Speaker-Diarization. Das Modell kann Audio in Text umwandeln und dabei verschiedene Sprecher automatisch identifizieren und trennen.

Einordnung

VibeVoice stellt eine interessante Alternative zu OpenAIs Whisper dar, da es Speaker-Diarization direkt in das Modell integriert hat - eine Funktion, die bei Whisper separat implementiert werden muss. Die MIT-Lizenz macht es für kommerzielle Nutzung attraktiv. Simon Willisons Test zeigt praktische Performance: 8 Minuten 45 Sekunden für eine Stunde Audio auf einem M5 Max MacBook Pro mit 30GB RAM-Verbrauch. Die Verfügbarkeit als 4-Bit MLX-Version für Apple Silicon und die einfache Integration über Tools wie mlx-audio senken die Einstiegshürden erheblich. Das 59-Minuten-Limit pro Durchlauf ist eine praktische Einschränkung, aber für viele Anwendungsfälle ausreichend. Die Kombination aus guter Performance, offener Lizenz und integrierter Speaker-Trennung könnte VibeVoice zu einer starken Konkurrenz für etablierte Lösungen machen.

Quelle: simonw↗