FLM-101B: En superomkostningseffektiv sprogmodel i 101B-skala konkurrerer med førende AI-modeller

Følgende artikel hjælper dig med: FLM-101B: En superomkostningseffektiv sprogmodel i 101B-skala konkurrerer med førende AI-modeller

Kinesiske forskere har afsløret en ny LLM, den FLM-101B, et LLM-kun dekoder, der kan prale af bemærkelsesværdige 101 milliarder parametre. Denne udvikling giver et omkostningseffektivt alternativ til både forskning og praktiske anvendelser.

FLM-101B: En super omkostningseffektiv sprogmodel i 101B-skala konkurrerer med førende AI-modeller

Det, der får FLM-101B til at skille sig ud, er dens exceptionelle ydeevne opnået på et relativt beskedent budget. Selvom det er velkendt, at træning af LLM’er fra bunden kan kræve astronomiske investeringer, har skaberne af FLM-101B vist, at det er muligt at træne en model med 101 milliarder parametre ved brug af blot et budget på $100.000.

De eksperimentelle resultater er intet mindre end imponerende. FLM-101B har demonstreret ydeevneniveauer, der kan sammenlignes med etablerede og ressourcekrævende modeller som GPT-3 og GLM-130B. Denne sammenligning fremhæver det enorme potentiale i denne omkostningseffektive model, især på IQ-benchmarks med komplekse sammenhænge, ​​der ikke er til stede i træningsdataene.

I et træk, der understreger deres forpligtelse til at fremme AI-forskning og -udvikling, har skaberne af FLM-101B gjort denne model til open source. Forskere og udviklere over hele verden kan nu få adgang til og udnytte denne 101B-skala LLM til forskellige applikationer, der spænder over både kinesisk og engelsk.

FLM-101B-modellen anvender en unik træningstilgang. Den akkumulerer hurtigt viden fra en mindre model med 16 milliarder parametre i de indledende stadier af træning og skalerer gradvist op til 101 milliarder parametre. Denne trinvise tilgang reducerer uddannelsesomkostningerne markant, hvilket gør det økonomisk muligt for en bredere vifte af projekter.

En iøjnefaldende egenskab ved FLM-101B er dens understøttelse af effektiv vinduesstørrelsesudvidelse under inferens. Dette opnås ved at bruge xPos roterende positionsindlejring, hvilket gør det muligt for modellen at håndtere en bredere sammenhæng, hvilket forbedrer dens tilpasningsevne og brugervenlighed.

🔥 Anbefalede:  Android Tethering Apps & Guide 2023 (med USB, WiFi og Bluetooth)

FLM-101B blev trænet på en klynge af 24 DGX-A800 GPU-servere på mindre end 26 dage. Denne imponerende bedrift understreger modellens skalerbarhed og effektive ressourceudnyttelse. Modellens træningskodebase, tilpasset fra Megatron-LM, vil snart være tilgængelig som open source, hvilket giver værdifuld indsigt til AI-fællesskabet.

Skaberne af FLM-101B anerkender potentielle begrænsninger, herunder modellens eksponering for usikre eksempler i træningskorpuset på grund af datasættets åbne karakter. Denne advarsel tjener som en påmindelse om vigtigheden af ​​ansvarlig AI-brug og indholdsmoderering.

Mens FLM-101B har opnået bemærkelsesværdige resultater, anerkender skaberne områder for forbedring. Selv om modellens slutningsproces er kraftfuld, er den endnu ikke fuldt optimeret, hvilket fører til højere ressourceforbrug og reduceret hastighed. Der er dog planer om at introducere Flash Attention i konklusioner, der adresserer denne begrænsning.

Læs mere om AI: