GLIGEN: ny frossen tekst-til-billede generationsmodel med afgrænsningsramme

Følgende artikel hjælper dig med: GLIGEN: ny frossen tekst-til-billede generationsmodel med afgrænsningsramme

Storskala tekst-til-billede diffusionsmodeller er nået langt. Den nuværende praksis er dog udelukkende at stole på tekstinput, hvilket kan begrænse kontrollerbarheden. GLIGENeller Grounded-Language-to-Image Generation, er en ny teknik, der bygger på og udvider kapaciteten af ​​nuværende forudtrænede tekst-til-billede-diffusionsmodeller ved at tillade dem at blive betinget af jordforbindelse.

GLIGEN: ny frossen tekst-til-billede generationsmodel med afgrænsningsramme

For at vedligeholde den fortrænede models omfattende konceptviden fryser udviklerne alle dens vægte og pumper jordforbindelsesinformationen ind i friske, trænelige lag via en kontrolleret proces. Med input af billedtekst og afgrænsningsbokstilstand genererer GLIGEN-modellen åben verden jordet tekst-til-billede, og jordingsevnen generaliserer effektivt til nye rumlige konfigurationer og koncepter.

Tjek ud demo her.

GLIGEN er baseret på eksisterende fortrænede diffusionsmodeller, hvis originale vægte er blevet frosset for at bevare enorme mængder af forudtrænet viden.
  • GLIGEN er baseret på eksisterende præ-trænede diffusionsmodeller, hvis originale vægte er blevet frosset for at bevare enorme mængder af præ-trænet viden.
  • Ved hver transformerblok er der oprettet et nyt, trænet Gated Self-Attention-lag for at absorbere yderligere jording.
  • Hvert jordingstoken har to typer information: semantisk information om den jordede ting (kodet tekst eller billede) og rumlig positionsinformation (kodet afgrænsningsramme eller nøglepunkter).
Nyt tilføjede modulerede lag fortrænes løbende på massive jordingsdata (image-text-box), hvilket er mere omkostningseffektivt end alternative metoder til at bruge en forudtrænet diffusionsmodel, såsom finjustering af fuld model.  I lighed med Lego kan forskellige trænede lag tilsluttes og ud for at tillade forskellige nye muligheder.Nyt tilføjede modulerede lag fortrænes løbende på massive jordingsdata (billedtekstboks). Dette er mere omkostningseffektivt end alternative metoder til at bruge en præ-trænet diffusionsmodel, såsom fuld-model finjustering. I lighed med Lego kan forskellige trænede lag tilsluttes og ud for at tillade forskellige nye muligheder.
GLIGEN understøtter planlagt sampling i diffusionsprocessen for inferens, hvor modellen dynamisk kan vælge at bruge jordingstokens (ved at tilføje det nye lag) eller den originale diffusionsmodel med god forud (ved at sparke det nye lag ud), og dermed balancere generationskvaliteten og jordingsevne.GLIGEN understøtter planlagt sampling i diffusionsprocessen for inferens, hvor modellen dynamisk kan vælge at bruge jordingstokens (ved at tilføje det nye lag) eller den originale diffusionsmodel med god forud (ved at sparke det nye lag ud), og dermed balancere generationskvaliteten og jordingsevne.
GLIGEN kan generere en række objekter på bestemte steder og stilarter ved at udnytte viden fra en forudtrænet text2img-model.GLIGEN kan generere en række objekter på bestemte steder og stilarter ved at udnytte viden fra en forudtrænet text2img-model.
GLIGEN kan også trænes ved hjælp af referencebilleder.GLIGEN kan også trænes ved hjælp af referencebilleder. Den øverste række antyder, at referencefotografier udover skriftlige beskrivelser kan give mere finkornede egenskaber som stil og form på bilen. Den anden række viser, at et referencebillede også kan bruges som et stilbillede, i hvilket tilfælde vi opdager, at det er tilstrækkeligt at jorde det i et hjørne eller en kant af et billede.
GLIGEN kan ligesom andre diffusionsmodeller udføre jordet billedinpaint, som kan generere objekter, der matcher de medfølgende afgrænsningskasser.GLIGEN kan ligesom andre diffusionsmodeller udføre jordet billedinpaint, som kan generere objekter, der matcher de medfølgende afgrænsningskasser.
GLIGEN kan også jorde menneskelige nøglepunkter, mens der genereres tekst-til-billeder.GLIGEN kan også jorde menneskelige nøglepunkter, mens der genereres tekst-til-billeder.

Læs mere om AI:

🔥 Anbefalede:  HP er nu med i OTC-høreapparatspillet, drevet af Nuheara