Følgende artikel hjælper dig med: OpenAI annoncerer Evals, et open source-softwarerammeværk til evaluering af AI-modeller

Sideløbende med annonceringen af GPT-4 har OpenAI annonceret open source softwarerammeværket OpenAI Evals. Dette værktøj er designet til at skabe og køre benchmarks, der evaluerer ydeevnen af modeller som GPT-4. Med Evals håber OpenAI at crowdsource benchmarks til AI-modeltest.
“Vi bruger Evals til at guide udviklingen af vores modeller (både identificere mangler og forhindre regression), og vores brugere kan anvende det til at spore ydeevne på tværs af modelversioner (som nu vil udkomme regelmæssigt) og udviklende produktintegrationer,” forklarer virksomheden i -en blogindlæg.
Stripe, en populær betalingsbehandlingsvirksomhed, har allerede brugt Evals til at supplere sine menneskelige evalueringer og måle nøjagtigheden af deres GPT-drevne dokumentationsværktøj.
Udviklere kan bruge Evals til at oprette og køre evalueringer, der:
- Brug datasæt til at generere prompter,
- Mål kvaliteten af færdiggørelser leveret af en OpenAI-model, og
- Sammenlign ydeevne på tværs af forskellige datasæt og modeller.
Med open source-koden kan udviklere også skrive og tilføje en brugerdefineret Eval såvel som flere skabeloner der kan rumme forskellige benchmarks. Virksomheden har inkluderet skabeloner, der har været mest nyttige internt, herunder en skabelon til “model-graded evals”, som GPT-4 kan bruge til at kontrollere sit eget arbejde. Som et eksempel til efterfølgelse har virksomheden lavet en logisk puslespil-eval indeholdende ti prompter, hvor GPT-4 fejler.
Evals er også kompatibel med implementering af eksisterende benchmarks, herunder adskillige notebooks, der implementerer akademiske benchmarks og nogle få variationer af integration af små undergrupper af CoQA.
Mens udviklere ikke vil blive betalt for at bidrage med evaler, vil OpenAI give GPT-4-adgang i en begrænset periode til dem, der bidrager med “evaler af høj kvalitet.”
Annonceringen af Evals kommer efter OpenAI for nylig sagt det ville holde op med at bruge data indsendt af kunder via dets API til at træne eller forbedre sine modeller, medmindre kunderne beslutter sig for at tilmelde sig. Virksomheden slutter sig til Meta i crowdsourcing benchmarks, da sidstnævnte pålægger mennesker at “finde modstridende eksempler, der narrer den nuværende tilstand af -kunstmodeller” for sin DynaBench platform.
Læs mere: