Netflix heeft in samenwerking met onderzoekers van de universiteit INSAIT een nieuw AI-model genaamd VOID gelanceerd, dat niet alleen objecten uit video's verwijdert, maar ook de fysieke gevolgen van die verwijdering berekent. Het open-source model, voluit Video Object and Interaction Deletion, biedt een geautomatiseerde oplossing voor een complex probleem waar visual effects-teams in Hollywood doorgaans weken aan werken.
Bij het traditioneel wegsnijden van een acteur of object in de montage ontstaan vaak onlogische situaties, zoals een zwevende gitaar wanneer de persoon die het instrument vasthield wordt gewist. Bestaande inpainting-modellen zijn primair getraind om de lege pixels in de achtergrond op te vullen en corrigeren hooguit visuele artefacten zoals schaduwen of reflecties, maar missen het vermogen om te redeneren over fysieke causaliteit. VOID lost dit op door na de verwijdering van een object de logische fysieke reactie te genereren, waardoor zwaartekracht het overneemt en een gitaar op een natuurlijke manier valt. Uit experimenten blijkt dat het model de dynamiek van een scène consistenter behoudt dan eerdere methodes zoals Runway, ProPainter en DiffuseEraser.
Innovatieve techniek maakt gebruik van synthetische trainingsdata
De architectuur van VOID is gebouwd op CogVideoX, een door Alibaba PAI uitgebracht generatiemodel dat functioneert als een videovariant van Stable Diffusion. Een cruciale innovatie binnen dit systeem is het gebruik van een zogeheten quadmask. In plaats van een simpele binaire maskering die enkel aangeeft wat verwijderd of behouden moet blijven, werkt dit masker met vier specifieke waarden. Het codeert het primaire object, de overlappende gebieden, de beïnvloede regio's zoals vallende items en de achtergrond. Hierdoor krijgt het model een gestructureerd semantisch begrip van de gebeurtenissen in de scène. Daarnaast maakt het systeem gebruik van een tweestaps-pijplijn, waarbij een optionele tweede ronde specifiek wordt ingezet om vervormingen van objecten te stabiliseren met behulp van optische flow.
Om het model te trainen in het begrijpen van deze fysieke interacties, hadden de onderzoekers videoparen nodig die exact dezelfde scène met en zonder het object tonen. Omdat dergelijke data in de echte wereld niet op grote schaal beschikbaar is, heeft het team deze synthetisch gegenereerd. Voor interacties tussen mensen en objecten werd gebruikgemaakt van HUMOTO, waarbij de fysica in Blender werd gesimuleerd. Voor botsingen tussen objecten onderling werd het door Google Research ontwikkelde Kubric ingezet. Door de natuurkunde in deze simulaties opnieuw te berekenen na het verwijderen van een element, wisten de onderzoekers een dataset te creëren waarin de fysieke reacties aantoonbaar kloppen.
VOID is sinds 3 april beschikbaar voor studio's, maar ook onderzoekers, ontwikkelaars en technisch vaardige hobbyisten. VOID is uitgegeven onder een Apache 2.0-licentie, waardoor ook commercieel gebruik is toegestaan.
Poll: Denk jij dat AI-modellen zoals VOID de traditionele filmindustrie in Hollywood volledig gaan veranderen?
Reacties (1)