Apple hat ein neues Video-KI-Modell mit dem Namen STARFlow-V vorgestellt, das sich durch den Einsatz von Normalizing Flows von herkömmlichen Diffusionsmodellen abhebt. Diese Technologie, die in der Videogenerierung bislang wenig genutzt wurde, ermöglicht die Erstellung realitätsnaher Videos, die den Anforderungen im Prompt präzise folgen. Obwohl die Auflösung bei vierhundertachtzig Pixeln liegt, dient das Modell vor allem der Demonstration technischer Machbarkeit. STARFlow-V kann Videos aus Textbeschreibungen generieren, Standbilder erweitern oder bestehende Clips bearbeiten. Es wurde mit siebzig Millionen Text-Video-Paaren und vierhundert Millionen Text-Bild-Paaren trainiert und produziert Videos mit sechzehn Bildern pro Sekunde. Die Architektur des Modells erlaubt exakte Wahrscheinlichkeiten, was zu stabileren Videos führt und die Anzahl der KI-Artefakte reduziert. STARFlow-V arbeitet autoregressiv und nutzt eine optimierte Jacobi-Iteration für schnellere Verarbeitung. Obwohl die Geschwindigkeit noch nicht in Echtzeit ist und einige Szenen fehlerhaft bleiben, zeigt das Modell vielversprechende Ergebnisse. Apples Pläne für das Modell sind unklar, doch der Code sowie die Forschungsarbeit sind auf GitHub verfügbar.