Jak powstrzymać model sztucznej inteligencji przed nazizmem? Co ujawnia dramat Groka.

Grok, chatbot wykorzystujący sztuczną inteligencję (AI) wbudowany w platformę X (dawniej Twitter) i stworzony przez firmę Elona Muska xAI, ponownie znalazł się na pierwszych stronach gazet po tym, jak nadał sobie nazwę „MechaHitler” i wygłosił pronazistowskie przemówienia.
Twórcy przeprosili za „niestosowne posty” i „podjęli działania mające na celu zablokowanie mowy nienawiści” w postach Groka na X. Odżyły również dyskusje na temat stronniczości sztucznej inteligencji.
Jednak najnowsza kontrowersja wokół Groka ujawnia nie tyle ekstremistyczne wyniki, co fundamentalną nieuczciwość w rozwoju sztucznej inteligencji. Musk twierdzi, że tworzy „ poszukującą prawdy ” sztuczną inteligencję wolną od uprzedzeń, jednak techniczna implementacja ujawnia systemowe programowanie ideologiczne.
Jest to przypadkowe studium przypadku pokazujące, w jaki sposób systemy sztucznej inteligencji uwzględniają wartości swoich twórców, a niesfiltrowana publiczna obecność Muska ujawnia to, co inne firmy zazwyczaj ukrywają.
Czym jest Grok?Grok to chatbot oparty na sztucznej inteligencji, który „łączy w sobie nutę humoru i szczyptę buntu” opracowany przez xAI , firmę będącą także właścicielem platformy społecznościowej X.
Pierwsza wersja Groka została uruchomiona w 2023 roku. Niezależne oceny sugerują, że najnowszy model, Grok 4, przewyższa konkurencję w testach „inteligencji”. Chatbot jest dostępny samodzielnie oraz na platformie X.
xAI stwierdza, że „wiedza sztucznej inteligencji powinna być wszechstronna i mieć jak najszerszy zasięg”. Musk wcześniej przedstawiał Grok jako alternatywę w zakresie przekazywania prawdy dla chatbotów, oskarżanych przez prawicowych komentatorów o bycie „przebudzonymi”.
Ale poza najnowszym skandalem nazistowskim, Grok trafił na pierwsze strony gazet za groźby przemocy seksualnej, poruszanie tematu „ludobójstwa białych” w RPA i obraźliwe wypowiedzi pod adresem polityków. To ostatnie doprowadziło do jego zakazu w Turcji .
Jak więc programiści mogą wpoić sztucznej inteligencji takie wartości i kształtować zachowania chatbotów? Dzisiejsze chatboty są budowane w oparciu o duże modele językowe (LLM), które oferują szereg narzędzi, z których mogą skorzystać programiści.
Co sprawia, że sztuczna inteligencja „zachowuje się” w ten sposób?Przedtreningowy
Najpierw programiści selekcjonują dane wykorzystywane podczas wstępnego szkolenia – to pierwszy krok w tworzeniu chatbota. Obejmuje to nie tylko filtrowanie niepożądanych treści, ale także podkreślanie pożądanych treści.
GPT-3 był wyświetlany Wikipedii nawet sześć razy częściej niż inne zbiory danych, ponieważ OpenAI uznał go za wyższej jakości. Grok jest trenowany na różnych źródłach, w tym na postach z X, co może wyjaśniać, dlaczego Grok podobno sprawdza opinię Elona Muska na kontrowersyjne tematy.
Musk poinformował, że xAI zajmuje się danymi szkoleniowymi Groka, na przykład w celu poszerzenia wiedzy prawniczej i usunięcia treści generowanych przez LLM w celu kontroli jakości. Zaapelował również do społeczności X o zgłaszanie trudnych problemów związanych z „mózgiem galaktycznym” oraz faktów, które są „politycznie niepoprawne, ale mimo to prawdziwe”.
Nie wiemy, czy dane te zostały wykorzystane, ani jakie środki kontroli jakości zastosowano.
Dostrajanie
Drugi etap, czyli dostrajanie, dostosowuje zachowanie LLM na podstawie informacji zwrotnych. Programiści tworzą szczegółowe instrukcje opisujące preferowane przez nich stanowiska etyczne, które następnie, zarówno recenzenci, jak i systemy sztucznej inteligencji, wykorzystują jako kryteria oceny i ulepszania odpowiedzi chatbota, skutecznie kodując te wartości w maszynie.
Śledztwo przeprowadzone przez Business Insider ujawniło, że instrukcje xAI skierowane do „nauczycieli AI” nakazywały im poszukiwanie „ideologii przebudzenia” i „kultury anulowania”. Chociaż w dokumentach wprowadzających stwierdzono, że Grok nie powinien „narzucać opinii, która potwierdza lub neguje uprzedzenia użytkownika”, stwierdzono również, że powinien unikać odpowiedzi, które twierdzą, że obie strony debaty mają rację, gdy tak nie jest.
Monity systemowe
Monit systemowy – instrukcje wyświetlane przed każdą rozmową – kieruje zachowaniem po wdrożeniu modelu.
Trzeba przyznać, że xAI publikuje komunikaty systemowe Groka. Jego instrukcje, aby „zakładać, że subiektywne opinie zaczerpnięte z mediów są stronnicze” i „nie wahać się przed wygłaszaniem twierdzeń, które są politycznie niepoprawne, o ile są dobrze uzasadnione”, były prawdopodobnie kluczowymi czynnikami w najnowszej kontrowersji.
Podpowiedzi te są codziennie aktualizowane w momencie pisania tego tekstu, a ich ewolucja stanowi fascynujące studium przypadku.
Barierki ochronne
Wreszcie, programiści mogą również dodawać zabezpieczenia – filtry blokujące określone żądania lub odpowiedzi. OpenAI twierdzi, że nie pozwala ChatGPT „generować treści szerzących nienawiść, obraźliwych, brutalnych lub przeznaczonych dla dorosłych”. Tymczasem chiński model DeepSeek cenzuruje dyskusje na temat placu Tian’anmen.
Doraźne testy przeprowadzone przed napisaniem tego artykułu wskazują, że Grok jest pod tym względem znacznie mniej powściągliwy niż produkty konkurencji.
Paradoks przejrzystościKontrowersje wokół nazizmu w wypowiedzi Groka rzucają światło na głębszy problem etyczny: czy wolelibyśmy, aby firmy zajmujące się sztuczną inteligencją otwarcie przyznawały się do swojej ideologii i były w tej kwestii uczciwe, czy też aby podtrzymywały fikcję neutralności, jednocześnie potajemnie wiernie odzwierciedlając swoje wartości?
Każdy znaczący system sztucznej inteligencji odzwierciedla światopogląd jego twórcy – od niechęci do ryzyka w podejściu korporacyjnym Microsoft Copilot, po skoncentrowaną na bezpieczeństwie filozofię Anthropic Claude. Różnica tkwi w przejrzystości.
Publiczne wypowiedzi Muska ułatwiają powiązanie zachowań Groka z jego deklarowanymi przekonaniami na temat „ideologii przebudzenia” i stronniczości mediów. Tymczasem, gdy inne platformy zawodzą w spektakularny sposób, pozostaje nam zgadywanie, czy wynika to z poglądów kierownictwa, niechęci korporacji do ryzyka, presji regulacyjnej, czy też z przypadku.
Brzmi znajomo. Grok przypomina chatbota Tay firmy Microsoft z 2016 roku, który szerzył mowę nienawiści, również wyszkolonego na danych z Twittera i udostępnionego na Twitterze, zanim został wyłączony.
Ale jest zasadnicza różnica. Rasizm Tay wynikał z manipulacji użytkownikami i słabych zabezpieczeń – niezamierzony skutek. Zachowanie Groka wydaje się wynikać przynajmniej częściowo z jego konstrukcji.
Prawdziwą lekcją płynącą z Groka jest uczciwość w rozwoju sztucznej inteligencji. Wraz ze wzrostem mocy i upowszechnieniem się tych systemów (wsparcie Groka w samochodach Tesli zostało właśnie ogłoszone ), pytanie nie brzmi, czy sztuczna inteligencja będzie odzwierciedlać ludzkie wartości, ale czy firmy będą transparentne w kwestii tego, czyje wartości kodują i dlaczego.
Podejście Muska jest jednocześnie bardziej uczciwe (widać jego wpływ) i bardziej zwodnicze (deklaruje obiektywizm, jednocześnie programując subiektywizm) od podejścia jego konkurentów.
W branży zbudowanej na micie neutralnych algorytmów Grok ujawnia prawdę, która była prawdziwa od samego początku: nie istnieje coś takiego jak bezstronna sztuczna inteligencja – istnieją tylko takie sztuczne inteligencje, których stronniczość możemy dostrzec z różnym stopniem przejrzystości.
Aaron J. Snoswell, starszy pracownik naukowy ds. odpowiedzialności za sztuczną inteligencję, Queensland University of Technology
Niniejszy artykuł został przedrukowany ze strony The Conversation na podstawie licencji Creative Commons.
Cbs News