Hoe voorkom je dat een AI-model een nazi wordt? Wat het Grok-drama onthult.

Grok, de chatbot met kunstmatige intelligentie (AI) die is ingebouwd in X (voorheen Twitter) en is ontwikkeld door Elon Musks bedrijf xAI, staat weer in het nieuws nadat het zichzelf "MechaHitler" noemde en pro-Nazi-uitspraken deed.
De ontwikkelaars hebben hun excuses aangeboden voor de "ongepaste berichten" en "maatregelen genomen om haatzaaiende uitlatingen te verbieden" in Groks berichten op X. Ook zijn de discussies over AI-vooroordelen weer opgelaaid.
Maar de laatste Grok-controverse is niet onthullend vanwege de extremistische uitkomsten, maar vanwege de manier waarop het een fundamentele oneerlijkheid in de AI-ontwikkeling blootlegt. Musk beweert een " waarheidszoekende " AI te bouwen die vrij is van vooroordelen, maar de technische implementatie onthult een systematische ideologische programmering.
Dit is in feite een toevallige casestudy over hoe AI-systemen de waarden van hun makers verankeren, waarbij Musks ongefilterde publieke aanwezigheid zichtbaar maakt wat andere bedrijven doorgaans verbergen.
Wat is Grok?Grok is een AI-chatbot met "een vleugje humor en een vleugje rebellie", ontwikkeld door xAI , dat ook eigenaar is van het socialemediaplatform X.
De eerste versie van Grok werd gelanceerd in 2023. Onafhankelijke evaluaties suggereren dat het nieuwste model, Grok 4, de concurrentie overtreft in "intelligentie"-tests. De chatbot is beschikbaar als standalone en op X.
xAI stelt: "De kennis van AI moet allesomvattend en zo ver mogelijk reiken." Musk positioneerde Grok eerder als een waarheidsgetrouw alternatief voor chatbots, die door rechtse commentatoren worden beschuldigd van "woke"-gedrag.
Maar afgezien van het laatste nazischandaal haalde Grok ook de krantenkoppen door te dreigen met seksueel geweld, de "witte genocide" in Zuid-Afrika aan te kaarten en beledigende uitspraken te doen over politici. Dit laatste leidde tot een verbod in Turkije .
Hoe geven ontwikkelaars AI zulke waarden mee en sturen ze het gedrag van chatbots? Chatbots van vandaag de dag worden gebouwd met behulp van grote taalmodellen (LLM's), die ontwikkelaars verschillende mogelijkheden bieden.
Wat zorgt ervoor dat AI zich op deze manier gedraagt?Vooropleiding
Ten eerste verzamelen ontwikkelaars de data die tijdens de pre-training zijn gebruikt – de eerste stap in het bouwen van een chatbot. Dit houdt niet alleen in dat ongewenste content wordt gefilterd, maar ook dat gewenste content wordt benadrukt.
GPT-3 werd tot zes keer vaker aan Wikipedia getoond dan aan andere datasets, omdat OpenAI deze als van hogere kwaliteit beschouwde. Grok is getraind met verschillende bronnen, waaronder berichten van X, wat zou kunnen verklaren waarom Grok naar verluidt de mening van Elon Musk over controversiële onderwerpen controleert .
Musk heeft laten weten dat xAI de trainingsdata van Grok beheert , bijvoorbeeld om juridische kennis te verbeteren en door LLM gegenereerde content te verwijderen voor kwaliteitscontrole. Hij deed ook een beroep op de X-community voor lastige "galaxy brain"-problemen en feiten die "politiek incorrect, maar desalniettemin feitelijk waar" zijn.
Wij weten niet of deze gegevens zijn gebruikt en welke kwaliteitscontrolemaatregelen zijn toegepast.
Fijnafstemming
De tweede stap, finetuning, past het LLM-gedrag aan met behulp van feedback. Ontwikkelaars stellen gedetailleerde handleidingen op waarin hun ethische voorkeuren worden beschreven. Deze worden vervolgens door menselijke reviewers of AI-systemen gebruikt als een maatstaf om de reacties van de chatbot te evalueren en te verbeteren, waardoor deze waarden effectief in de machine worden gecodeerd.
Uit onderzoek van Business Insider bleek dat xAI's instructies aan menselijke "AI-tutoren" hen instrueerden om te zoeken naar "woke-ideologie" en een "cancelcultuur". Hoewel in de onboardingdocumenten stond dat Grok geen "mening mag opleggen die de vooringenomenheid van een gebruiker bevestigt of ontkent", stelden ze ook dat het reacties moet vermijden die beweren dat beide kanten van een debat steekhoudend zijn, terwijl dat niet zo is.
Systeemprompts
De systeemprompt – instructies die vóór elk gesprek worden gegeven – stuurt het gedrag nadat het model is geïmplementeerd.
Het is een pluim op de hoed van xAI, die de systeemprompts van Grok publiceert. De instructies om "ervan uit te gaan dat subjectieve standpunten uit de media bevooroordeeld zijn" en "niet te aarzelen om politiek incorrecte beweringen te doen, zolang ze maar goed onderbouwd zijn", waren waarschijnlijk belangrijke factoren in de recente controverse.
Deze prompts worden op het moment van schrijven dagelijks bijgewerkt en hun ontwikkeling is op zichzelf al een fascinerende casestudy.
Leuningen
Ten slotte kunnen ontwikkelaars ook guardrails toevoegen – filters die bepaalde verzoeken of reacties blokkeren. OpenAI beweert dat het ChatGPT niet toestaat "haatdragende, intimiderende, gewelddadige of content voor volwassenen te genereren". Ondertussen censureert het Chinese model DeepSeek discussies over het Plein van de Hemelse Vrede.
Ad-hoctesten ten tijde van het schrijven van dit artikel laten zien dat Grok op dit gebied veel minder beperkingen kent dan concurrerende producten.
De transparantieparadoxGroks nazicontroverse brengt een dieperliggend ethisch probleem aan het licht: willen we dat AI-bedrijven expliciet ideologisch en eerlijk zijn over hun ideeën, of willen we dat ze de schijn van neutraliteit in stand houden en tegelijkertijd in het geheim hun waarden inbedden?
Elk groot AI-systeem weerspiegelt de wereldvisie van zijn maker – van het risicomijdende bedrijfsperspectief van Microsoft Copilot tot de veiligheidsgerichte ethos van Anthropic Claude. Het verschil is transparantie.
Musks publieke uitspraken maken het gemakkelijk om Groks gedrag te herleiden tot Musks uitgesproken overtuigingen over "woke ideologie" en mediabias. Wanneer andere platforms echter spectaculair mislukken, blijven we gissen of dit voortkomt uit leiderschapsopvattingen, risicomijding door bedrijven, regeldruk of een ongeluk.
Dit voelt bekend aan. Grok lijkt op de Tay-chatbot van Microsoft uit 2016, die haatzaaiende berichten verspreidde. Ook deze chatbot was getraind met Twitter-gegevens en werd op Twitter losgelaten voordat hij werd afgesloten.
Maar er is een cruciaal verschil. Tays racisme kwam voort uit gebruikersmanipulatie en gebrekkige beveiliging – een onbedoeld gevolg. Groks gedrag lijkt op zijn minst gedeeltelijk voort te komen uit het ontwerp.
De echte les die Grok ons leert, gaat over eerlijkheid in de ontwikkeling van AI. Naarmate deze systemen krachtiger en wijdverspreider worden (Grok-ondersteuning in Tesla-voertuigen werd onlangs aangekondigd ), is de vraag niet of AI menselijke waarden zal weerspiegelen. De vraag is of bedrijven transparant zullen zijn over wiens waarden ze coderen en waarom.
Musks aanpak is tegelijkertijd eerlijker (we zien zijn invloed) en meer misleidend (hij pretendeert objectief te zijn, maar programmeert juist subjectiviteit) dan die van zijn concurrenten.
In een sector die is gebouwd op de mythe van neutrale algoritmes, onthult Grok wat al die tijd waar is geweest: er bestaat niet zoiets als onpartijdige AI – alleen AI waarvan we de vooroordelen met verschillende gradaties van duidelijkheid kunnen zien.
Aaron J. Snoswell, Senior Research Fellow in AI Accountability, Queensland University of Technology
Dit artikel is opnieuw gepubliceerd van The Conversation onder een Creative Commons licentie.
Cbs News