Følgende artikel hjælper dig med: GLIGEN: ny frossen tekst-til-billede generationsmodel med afgrænsningsramme
Storskala tekst-til-billede diffusionsmodeller er nået langt. Den nuværende praksis er dog udelukkende at stole på tekstinput, hvilket kan begrænse kontrollerbarheden. GLIGENeller Grounded-Language-to-Image Generation, er en ny teknik, der bygger på og udvider kapaciteten af nuværende forudtrænede tekst-til-billede-diffusionsmodeller ved at tillade dem at blive betinget af jordforbindelse.

For at vedligeholde den fortrænede models omfattende konceptviden fryser udviklerne alle dens vægte og pumper jordforbindelsesinformationen ind i friske, trænelige lag via en kontrolleret proces. Med input af billedtekst og afgrænsningsbokstilstand genererer GLIGEN-modellen åben verden jordet tekst-til-billede, og jordingsevnen generaliserer effektivt til nye rumlige konfigurationer og koncepter.
Tjek ud demo her.

- GLIGEN er baseret på eksisterende præ-trænede diffusionsmodeller, hvis originale vægte er blevet frosset for at bevare enorme mængder af præ-trænet viden.
- Ved hver transformerblok er der oprettet et nyt, trænet Gated Self-Attention-lag for at absorbere yderligere jording.
- Hvert jordingstoken har to typer information: semantisk information om den jordede ting (kodet tekst eller billede) og rumlig positionsinformation (kodet afgrænsningsramme eller nøglepunkter).






Læs mere om AI: