ERNIE-ViLG 2.0: Den nye tekst-til-billede-model fra Baidu overgår Dalle-2 og Stable Diffusion

Følgende artikel hjælper dig med: ERNIE-ViLG 2.0: Den nye tekst-til-billede-model fra Baidu overgår Dalle-2 og Stable Diffusion

ERNIE-ViLG 2.0 er en tekst-til-billede-model, der giver bedre ydeevne end Dalle-2 og Stable Diffusion, to af de mest populære tekst-til-billede-modeller, der er tilgængelige i øjeblikket. Den nye model er designet og trænet af et team af forskere fra Baidu, og resultaterne er betagende.

Den nye tekst-til-billede model ERNIE-ViLG 2.0 udkonkurrerer Dalle-2 og Stable DiffusionBilledet skabt af ERNIE-ViLG 2.0

Resultaterne viste, at ERNIE-ViLG 2.0 klarede sig betydeligt bedre end Dalle-2 og Stable Diffusion. Dette er en betydelig præstation og demonstrerer styrken i ERNIE-rammen. Metaverse Post-teamet sammenlignede ERNIE-ViLG 2.0 med Stable Diffusion nedenfor:

Stabil diffusion
ERNIE-ViLG 2.0
Stabil diffusion
ERNIE-ViLG 2.0
Stabil diffusion
ERNIE-ViLG 2.0
Stabil diffusion
ERNIE-ViLG 2.0
Stabil diffusion
ERNIE-ViLG 2.0

Disse resultater giver stærk støtte til hypotesen om, at ERNIE-ViLG 2.0 er et mere effektivt tekst-til-billede-system end både Dalle-2 og Stable Diffusion.

Unet-arkitekturen fra Stable Diffusion tages som udgangspunkt, men med ændringer:

  • En blanding af denoising-eksperter: Der er 10 neurale netværk i stedet for kun ét, hvor hver kun er ansvarlig for visse diffusionstrin.
  • Tekstkendskab: Omvægtede automatisk ordene i forespørgslen, så søgeord får mere vægt.
  • Visuel viden: Under træning blev objekter detekteret på mellemgenerationsresultater, og vægten af ​​tabsfunktionen på regioner med objekter blev øget.

Som et resultat kom verdens største tekst-til-billede-model ud med 24 milliarder parametre (10 gange større end SD) for at træne modellen.

I sammenligning med tidligere modeller overgår ERNIE-ViLG 2.0 dem i høj grad med hensyn til billedkvalitet og billed-til-tekst-matchning, når den testes samtidigt på den tosprogede ViLG-300-prompt, der er indstillet af en person.

Prompts oversættes simpelthen automatisk fra kinesisk til engelsk i KrammeFace offentlig demo, før den sendes ind i AI. En masse funktioner kommer fra dette.

  • ERNIE kender ikke internationale offentlige personer. For eksempel kender ERNIE ikke Arnold Schwarzenegger. Det har bestemt lokale favoritter i Kina.
  • Som et resultat mislykkes metoden med at bruge berømthedsnavne i prompter til dramatisk at øge kvaliteten af ​​ansigter.
  • Du kan forvente en vis forvrængning på grund af oversættelsen fra kinesisk, så der kan være nogle overraskelser i vente, hvis du ikke taler kinesisk.
  • Den ved ikke engang noget om Greg Rutkowski.
🔥 Anbefalede:  Mutant Ape Planet NFT-skaber bliver arresteret for påstået bedrageri

Læs relaterede artikler: