Følgende artikel hjælper dig med: Google overvinder Meta ved at lancere en ny tekst-til-video AI Generator, Imagen Video
Det tog ikke lang tid, før Google svarede på Make-a-Video fra Meta. Ved at bruge en tekstprompt, Billedvideo kan producere en fantastisk video. Resultaterne er et enormt fremskridt i forhold til den kendte teknik på trods af en række ulemper.
I sammenligning med Facebooks tekst-til-video AI-generator Make-a-Video er resultaterne mærkbart bedre. Denne strategi krævede dog også mere overblik. I modsætning til Imagen Video, hvor mikroarbejderne arbejdede hårdt med at kommentere film med skriftlige beskrivelser, brugte Make-a-Scene umærkede videoer til træning.

At gå ind i detaljerne i arkitekturen er meningsløst; du bør læse om det i artiklen her. Vi kan kun bekræfte, at 16 billeder først genereres fra tekstindlejringen af T5-koderen med en opløsning på 48×24 med 3 billeder i sekundet, og at dette derefter opskaleres af en række diffusionsmodeller til den endelige film på 128 billeder ved 1280×768 og 24 billeder i sekundet.
Hvad er Imagen Video?
Imagen Video er en metode til at skabe tekst-betingede videoer baseret på en række videodiffusionsmodeller. Imagen Video producerer film af høj kvalitet ud fra tekstmeddelelser ved at kombinere en basisvideoproduktionsmodel med en række interlaced rumlige og tidsmæssige videomodeller med superopløsning. Gennemgå designvalgteamet, mens du skalerer systemet op som en high-definition tekst-til-video-model, herunder beslutningen om at v-parameterisere diffusionsmodeller og udvælgelsen af fuldt foldende tidsmæssige og rumlige superopløsningsmodeller ved specifikke opløsninger. Derudover validerer og anvender den resultater fra tidligere arbejde med diffusionsbaseret billedproduktion til videogenerering. Videomodeller udsættes derefter for progressiv destillation med klassificeringsfri vejledning for hurtig prøvetagning af høj kvalitet.
Googles forskningsteam hævder, at systemet accepterer en tekstbeskrivelse og genererer en film på 16 billeder med tre billeder i sekundet med en opløsning på 24 gange 48 pixels. Systemet skalerer og “forudsiger” de ekstra billeder og skaber en endelig video med 128 billeder ved 24 billeder i sekundet og 720p opløsning (1280×768). Der er 60 millioner billed-tekst-par, og 14 millioner video-tekst-par blev brugt til at træne Imagen Video.
Billedvideoeksempler
Selvom det kun er fordi at bruge AI til at lave video er hurtigere og billigere, vil sådanne teknologier uden tvivl blive brugt overalt.
Interesseret i at læse mere? Her er nogle yderligere emner at tjekke ud: