Følgende artikel hjælper dig med: ERNIE-ViLG 2.0: Den nye tekst-til-billede-model fra Baidu overgår Dalle-2 og Stable Diffusion
ERNIE-ViLG 2.0 er en tekst-til-billede-model, der giver bedre ydeevne end Dalle-2 og Stable Diffusion, to af de mest populære tekst-til-billede-modeller, der er tilgængelige i øjeblikket. Den nye model er designet og trænet af et team af forskere fra Baidu, og resultaterne er betagende.

Resultaterne viste, at ERNIE-ViLG 2.0 klarede sig betydeligt bedre end Dalle-2 og Stable Diffusion. Dette er en betydelig præstation og demonstrerer styrken i ERNIE-rammen. Metaverse Post-teamet sammenlignede ERNIE-ViLG 2.0 med Stable Diffusion nedenfor:










Disse resultater giver stærk støtte til hypotesen om, at ERNIE-ViLG 2.0 er et mere effektivt tekst-til-billede-system end både Dalle-2 og Stable Diffusion.
Unet-arkitekturen fra Stable Diffusion tages som udgangspunkt, men med ændringer:
- En blanding af denoising-eksperter: Der er 10 neurale netværk i stedet for kun ét, hvor hver kun er ansvarlig for visse diffusionstrin.
- Tekstkendskab: Omvægtede automatisk ordene i forespørgslen, så søgeord får mere vægt.
- Visuel viden: Under træning blev objekter detekteret på mellemgenerationsresultater, og vægten af tabsfunktionen på regioner med objekter blev øget.
Som et resultat kom verdens største tekst-til-billede-model ud med 24 milliarder parametre (10 gange større end SD) for at træne modellen.
I sammenligning med tidligere modeller overgår ERNIE-ViLG 2.0 dem i høj grad med hensyn til billedkvalitet og billed-til-tekst-matchning, når den testes samtidigt på den tosprogede ViLG-300-prompt, der er indstillet af en person.
Prompts oversættes simpelthen automatisk fra kinesisk til engelsk i KrammeFace offentlig demo, før den sendes ind i AI. En masse funktioner kommer fra dette.
- ERNIE kender ikke internationale offentlige personer. For eksempel kender ERNIE ikke Arnold Schwarzenegger. Det har bestemt lokale favoritter i Kina.
- Som et resultat mislykkes metoden med at bruge berømthedsnavne i prompter til dramatisk at øge kvaliteten af ansigter.
- Du kan forvente en vis forvrængning på grund af oversættelsen fra kinesisk, så der kan være nogle overraskelser i vente, hvis du ikke taler kinesisk.
- Den ved ikke engang noget om Greg Rutkowski.
Læs relaterede artikler: