Nowe modele wielkojęzykowe nie mają żadnej wartości dla demokracji

Følgende artikel hjælper dig med: Nowe modele wielkojęzykowe nie mają żadnej wartości dla demokracji

Duże modele językoweNie należy spodziewać się demokratyzacji nowych, dużych modeli językowych, takich jak następny GPT-3.

Na początku maja Meta opublikowała Open Pretrained Transformer (OPT-175B), jeden z najlepszych modeli dużych języków (LLM) zdolnych do wykonywania różnorodnych zadań. W ostatnich latach duże modele językowe stały się jednym z najpopularniejszych obszarów badań nad sztuczną inteligencją. GPT-3 OpenAI, głęboka sieć neuronowa ze 175 miliardami parametrów, zapoczątkowała wyścig zbrojeń LLM, a OPT-175B jest najnowszym pretendentem. GPT-3 wykazał, że LLM mogą wykonywać różnorodne zadania przy minimalnej liczbie instrukcji i tylko w kilku przypadkach (uczenie się zerowe lub kilka strzałów). GPT-3 został później zintegrowany z różnymi aplikacjami firmy Microsoft, demonstrując naukowy i ekonomiczny potencjał LLM.

Przywiązanie Meta do „otwartości”, jak sugeruje nazwa modelu, jest tym, co wyróżnia OPT-175B. Model został teraz upubliczniony przez Meta (z pewnymi zastrzeżeniami). Dostarczyła także wielu informacji na temat procesu szkolenia i rozwoju. Nowe wielkoskalowe modele językowe Demokratyzacja dostępu do wielkoskalowych modeli językowych. Decyzja Meta, by stać się bardziej przejrzystą, jest godna podziwu. Z drugiej strony walka o masowe modele językowe osiągnęła punkt, w którym nie można jej już zdemokratyzować.

Zaglądanie do dużych modeli językowych

Wersja New Large Language Models OPT-175B firmy Meta zawiera kilka głównych funkcji. Zawiera zarówno wstępnie wyszkolone modele, jak i kod wymagany do szkolenia i korzystania z LLM. Modele, które zostały wstępnie wytrenowane, są bardzo cenne dla firm, którym brakuje zasobów obliczeniowych do wyszkolenia modelu (szkolenie sieci neuronowych wymaga znacznie więcej zasobów niż ich uruchamianie). Przyczyni się również do zmniejszenia ogromnego śladu węglowego generowanego przez zasoby obliczeniowe wymagane do szkolenia dużych sieci neuronowych.

🔥 Anbefalede:  Det er tid til at opdatere din iPhone og iPad til iOS 16.1 og iPadOS 16

OPT, podobnie jak GPT-3, jest dostępny w różnych rozmiarach, od 125 milionów do 175 miliardów znaków (modele z większą liczbą parametrów mają większą zdolność uczenia się). W chwili pisania tego tekstu wszystkie modele aż do OPT-30B są dostępne do pobrania. Cały model zawierający 175 miliardów parametrów zostanie udostępniony wybranym pracownikom naukowym i instytucjom, którzy wypełnią formularz wniosku.

Według Meta dystrybuujemy nasz model na licencji niekomercyjnej, aby skupić się na przypadkach użycia w celach badawczych, aby chronić integralność i zapobiegać wykorzystywaniu. Dostęp do modelu będą mieli badacze akademiccy, rządy, społeczeństwo obywatelskie i grupy akademickie, a także korporacyjne instytucje badawcze na całym świecie.

Oprócz modeli Meta stworzyła obszerny dziennik, w którym szczegółowo opisano rozwój i szkolenie ogromnych modeli językowych. Ostateczny model jest często jedyną informacją zawieraną w publikowanych badaniach. Według Meta dziennik pokazuje, ile obliczeń potrzeba było do wyszkolenia OPT-175B i jakie nakłady ludzkie były niezbędne, gdy podstawowa infrastruktura lub sam proces szkolenia stał się problematyczny na dużą skalę.

Porównaj z GPT-3

Modele wielkojęzykowe są ogólnie dostępne, a ograniczenie dostępu do kursów LLM utrudnia postęp w wysiłkach na rzecz zwiększenia ich solidności i zminimalizowania znanych problemów, takich jak stronniczość i toksyczność. Jest to atak na OpenAI (i, co za tym idzie, Microsoft), który zamiast upubliczniać wagi swojego modelu i kod źródłowy, zaoferował GPT-3 jako usługę API czarnej skrzynki. Kontrolowanie niewłaściwego użycia i rozwoju niebezpiecznych aplikacji było jednym z powodów podanych przez OpenAI dla nieupubliczniania GPT-3.

Meta wierzy, że dzięki szerszemu udostępnieniu modeli będzie lepiej przygotowana do oceny potencjalnych szkód i zapobiegania im. OPT-175B sprawi, że więcej głosów stanie na czele tworzenia modeli dużych języków, pomoże społeczności we wspólnym projektowaniu strategii odpowiedzialnego wydawania oprogramowania oraz zapewni niespotykany dotąd poziom przejrzystości i otwartości w rozwoju modeli dużych języków w terenie. Należy jednak zauważyć, że „przejrzystość i otwartość” to nie to samo, co „demokratyzacja ogromnych modeli językowych”. Koszty szkolenia, konfigurowania i obsługi dużych modeli językowych są nadal wygórowane, a w przyszłości jeszcze wzrosną.

🔥 Anbefalede:  En af de mest ventede bærbare computere i 2023 lanceres endelig i denne måned

Jak wynika z wpisu na blogu znajdującym się na stronie internetowej Meta, badaczom z powodzeniem obniżono koszty szkolenia ogromnych modeli językowych. Według firmy ślad węglowy modelu stanowi jedną szóstą śladu węglowego GPT-3. Według ekspertów wydatki na szkolenie GPT-3 mogą kosztować nawet 27,6 mln dolarów.

Sugeruje to, że szkolenie OPT-175B będzie kosztować kilka milionów dolarów. Na szczęście wstępnie wytrenowany model eliminuje wymóg szkolenia, a Meta twierdzi, że zapewni kodowanie do szkolenia i wdrożenia całego modelu „przy użyciu tylko 16 procesorów graficznych NVIDIA V100”. Jest to odpowiednik Nvidii DGX-2, która kosztuje ponad 400 000 dolarów, co stanowi znaczną sumę dla pozbawionego gotówki laboratorium badawczego lub pojedynczego badacza. (Zgodnie z raportem zawierającym dalsze szczegóły na temat OPT-175B Meta wyszkoliła swój model na 992 procesorach graficznych A100 o pojemności 80 GB, które są znacznie szybsze niż V100.)

(Niedemokratyczna) przyszłość dużych modeli językowych

Architektura transformatora jest używana w modelach językowych, takich jak OPT i nowe duże modele językowe GPT. Transformatory mogą przetwarzać ogromne ilości danych sekwencyjnych (takich jak tekst) równolegle i na dużą skalę. Badacze wykazali niedawno, że dodanie większej liczby warstw i parametrów do modeli transformatorów może zwiększyć ich wydajność w przypadku zadań językowych. Niektórzy naukowcy uważają, że osiągnięcie wyższego poziomu intelektu jest po prostu kwestią skali. W rezultacie bogate w środki finansowe laboratoria badawcze, takie jak Meta AI, DeepMind firmy Alphabet i OpenAI firmy Microsoft, koncentrują się na budowaniu coraz większych sieci neuronowych.

W zeszłym roku Microsoft i Nvidia opracowały Megatron-Turing, model językowy z 530 miliardami parametrów (MT-NLG). W zeszłym miesiącu firma Google udostępniła Pathways Language Model (PaLM), LLM z 540 miliardami parametrów. Istnieją również doniesienia, że ​​GPT-4 może zostać wydany przez OpenAI w ciągu najbliższych miesięcy. Z drugiej strony większe sieci neuronowe wymagają większych zasobów finansowych i technologicznych. Podczas gdy większe modele językowe będą miały więcej wodotrysków (i więcej niepowodzeń), nieuchronnie skupią władzę w rękach kilku zamożnych korporacji, jeszcze bardziej utrudniając mniejszym laboratoriom badawczym i niezależnym badaczom pracę nad ogromnymi modelami językowymi.