GPT-4 arver “hallucinerende” fakta og begrundelsesfejl fra tidligere GPT-modeller

Følgende artikel hjælper dig med: GPT-4 arver “hallucinerende” fakta og begrundelsesfejl fra tidligere GPT-modeller

GPT-4 arver "hallucinerende" fakta og begrundelsesfejl fra tidligere GPT-modeller

OpenAI har advaret brugere om, at dens seneste sprogmodel, GPT-4, stadig ikke er helt pålidelig og kan “hallucinere” fakta og lave begrundelsesfejl. Virksomheden opfordrer indtrængende brugere til at udvise forsigtighed, når de bruger sprogmodeloutput, især i “high-stakes sammenhænge.”

Den gode nyhed er dog, at GPT-4 reducerer hallucinationer markant i forhold til tidligere modeller. OpenAI hævder, at GPT-4 scorer 40 % højere end den seneste GPT-3.5 på interne kontradiktoriske faktaevalueringer.

via OpenAI

“Vi har gjort fremskridt med eksterne benchmarks som TruthfulQA, som tester modellens evne til at adskille fakta fra et modstridende udvalgte sæt af forkerte udsagn. Disse spørgsmål er parret med faktuelt forkerte svar, der er statistisk tiltalende,” skrev OpenAI i en blogindlæg.

På trods af denne forbedring mangler modellen stadig kendskab til hændelser, der fandt sted efter september 2021, og den laver nogle gange simple ræsonnementsfejl, ligesom tidligere modeller gør. Derudover kan den være alt for godtroende i at acceptere åbenlyse falske udsagn fra brugere og fejle ved svære problemer, såsom at indføre sikkerhedssårbarheder i sin kode. Den faktatjekker heller ikke de oplysninger, den giver.

Ligesom sine forgængere kan GPT-4 generere skadelige råd, buggy-kode eller unøjagtige oplysninger. Men modellens yderligere muligheder fører til nye risikoflader, der skal forstås. For at vurdere omfanget af disse risici blev over 50 eksperter fra forskellige domæner, herunder AI-tilpasningsrisici, cybersikkerhed, biorisk, tillid og sikkerhed og international sikkerhed, engageret for at teste modellen modstridende. Deres feedback og data blev derefter brugt til at forbedre modellen, såsom at indsamle yderligere data for at forbedre GPT-4’s evne til at afvise anmodninger om, hvordan man syntetiserer farlige kemikalier.

🔥 Anbefalede:  20 fakta om hulemænd

En af de vigtigste måder, hvorpå OpenAI reducerer skadelige output, er ved at inkorporere et ekstra sikkerhedsbelønningssignal under RLHF-træning (Reinforcement Learning from Human Feedback). Signalet træner modellen til at afvise anmodninger om skadeligt indhold, som defineret af modellens retningslinjer for brug. Belønningen leveres af en GPT-4 nul-skudsklassificering, som bedømmer sikkerhedsgrænser og færdiggørelsesstil på sikkerhedsrelaterede prompter.

OpenAI sagde også, at det havde reduceret modellens tendens til at svare på anmodninger om forbudt indhold med 82 % sammenlignet med GPT-3.5, og GPT-4 reagerer på følsomme anmodninger såsom lægerådgivning og selvskade i overensstemmelse med virksomhedens politikker 29 % oftere.

via OpenAI

Mens OpenAIs indgreb har øget vanskeligheden ved at fremkalde dårlig opførsel fra GPT-4, er det stadig muligt, og der er stadig jailbreaks, der kan generere indhold, der overtræder retningslinjer for brug.

“Efterhånden som AI-systemer bliver mere udbredte, vil det blive mere og mere kritisk at opnå høje grader af pålidelighed i disse indgreb. Indtil videre er det vigtigt at supplere disse begrænsninger med sikkerhedsteknikker i implementeringstid som overvågning for misbrug,” tilføjede virksomheden.

OpenAI samarbejder med eksterne forskere for bedre at forstå og vurdere de potentielle virkninger af GPT-4 og dets efterfølgermodeller. Holdet udvikler også evalueringer for farlige egenskaber, der kan dukke op i fremtidige AI-systemer. Mens de fortsætter med at studere de potentielle sociale og økonomiske konsekvenser af GPT-4 og andre AI-systemer, vil OpenAI dele deres resultater og indsigt med offentligheden i god tid.

Læs mere: