Stack Overflow slutter sig til Reddit i Charging Tech Giants til AI-træningsdata

Følgende artikel hjælper dig med: Stack Overflow slutter sig til Reddit i Charging Tech Giants til AI-træningsdata

Stack Overflow slutter sig til Reddit i Charging Tech Giants til AI-træningsdata

Stack Overflow, et spørgsmål-og-svar-forum for programmører, har besluttet at opkræve tech-giganter for at bruge deres data til at træne AI og store sprogmodeller (LLM), The Wired først rapporteret.

Dette følger Reddits meddelelse tirsdag om, at det vil begynde at opkræve betaling for adgang til dens data-API. Som svar på Google, OpenAI, Meta og andre virksomheder, der bruger Reddits enorme brugergenererede indhold til kommercielle AI-projekter uden betaling, fortalte Reddits administrerende direktør og medstifter, Steve Huffman, til The New York Times, at sådanne virksomheder nu bliver nødt til at betale for at bruge Reddits data til at træne deres AI-modeller, startende fra juni.

“At crawle Reddit, skabe værdi og ikke returnere nogen af ​​denne værdi til vores brugere er noget, vi har et problem med,” sagde Huffman til The Times. Udviklere, der ønsker at skabe applikationer og bots, der letter brugen af ​​Reddit, såvel som forskere, der ønsker at studere Reddit udelukkende til akademiske eller ikke-kommercielle formål, vil fortsat have fri adgang til Reddits API.

Udgivere af digitale og trykte medier lader heller ikke AI-giganter komme ud af krogen. News/Media Alliance udgav sin AI principper torsdag og erklærede, at den ulicenserede brug af dets indhold af generativ kunstig intelligens (GAI)-systemer udgør en krænkelse af intellektuelle ejendomsrettigheder. Retningslinjerne specificerer også, at GAI-systemer skal søge tilladelse fra udgivere, før de bruger deres indhold, og at udgivere skal have ret til at forhandle om rimelig kompensation for disse udvikleres brug af deres IP.

🔥 Anbefalede:  RevFin - Bringing Financial Inclusion I Tier II og III byer

Over 50 millioner spørgsmål og svar er blevet postet på Stack Overflow. Meta har trænet dens store sprogmodel LLaMA ved hjælp af data skrabet fra Stack Exchange, producenten af ​​Stack Overflow.

Da han talte om sin støtte til Reddits tilgang, fortalte Stack Overflows administrerende direktør Prashanth Chandrasekar til The Wired:

“Fællesskabsplatforme, der driver LLM’er, bør absolut kompenseres for deres bidrag, så virksomheder som os kan geninvestere tilbage i vores samfund for at fortsætte med at få dem til at trives.”

Chandrasekar tilføjede, at LLM-udviklere, der bruger Stack Overflows data, krænker webstedets servicevilkår da brugere ejer det indhold, de poster, hvilket falder ind under en Creative Commons-licens, der kræver, at enhver, der bruger indholdet senere, krediterer kilden. Han forklarede, at AI-virksomheder “ikke er i stand til at tilskrive hver eneste af de fællesskabsmedlemmer, hvis spørgsmål og svar blev brugt til at træne modellen, og derved bryder Creative Commons-licensen.”

Han præciserede også, at Stack Overflow kun ville opkræve virksomheder, der udvikler store LLM’er til kommercielle formål. Derudover arbejder Stack Overflow på sine egne generative AI-applikationer som en del af sin bredere AI-strategi. I et tidligere blogindlæg udtalte Chandrasekar, at han havde givet et dedikeret team til opgave at “arbejde fuld tid på GenAI-applikationer”, der kan integreres i Stack Overflows offentlige platform.

Både Reddit og Stack Overflow arbejder i øjeblikket på prisoplysninger for deres data API, som vil blive afsløret i de kommende måneder.

Læs mere: