Wewnątrz nieopublikowanego raportu rządu USA na temat bezpieczeństwa sztucznej inteligencji

6 sierpnia 2025, 14:00

Narodowy Instytut Norm i Technologii przeprowadził przełomowe badanie nad modelami granicznymi tuż przed drugą kadencją Donalda Trumpa jako prezydenta — i nigdy nie opublikował wyników.

Ilustracja fotograficzna: WIRED Staff/Getty Images

Na konferencji poświęconej bezpieczeństwu komputerowemu w Arlington w stanie Wirginia, w październiku ubiegłego roku, kilkudziesięciu badaczy sztucznej inteligencji wzięło udział w pierwszym w swoim rodzaju ćwiczeniu „red teaming”, czyli testowaniu wytrzymałości najnowocześniejszego modelu językowego i innych systemów sztucznej inteligencji . W ciągu dwóch dni zespoły zidentyfikowały 139 nowatorskich sposobów na niewłaściwe zachowanie systemów, w tym poprzez generowanie dezinformacji lub wyciek danych osobowych. Co ważniejsze, wykazali oni braki w nowym standardzie rządu USA, mającym pomóc firmom w testowaniu systemów sztucznej inteligencji.

Narodowy Instytut Standardów i Technologii (NIST) nie opublikował raportu szczegółowo opisującego to ćwiczenie, które zakończyło się pod koniec administracji Bidena. Dokument mógł pomóc firmom w ocenie własnych systemów sztucznej inteligencji, ale źródła zaznajomione ze sprawą, które chciały zachować anonimowość, twierdzą, że był to jeden z kilku dokumentów NIST dotyczących sztucznej inteligencji, które nie zostały opublikowane z obawy przed konfliktem z nową administracją.

„Nawet za prezydentury [Joe'a] Bidena, opublikowanie jakichkolwiek dokumentów stało się bardzo trudne” – mówi informator z NIST w tamtym czasie. „To przypominało badania nad zmianami klimatu albo badania nad papierosami”.

Ani NIST ani Departament Handlu nie odpowiedzieli na prośbę o komentarz.

Przed objęciem urzędu prezydent Donald Trump zasygnalizował, że planuje uchylić rozporządzenie wykonawcze Bidena w sprawie sztucznej inteligencji . Administracja Trumpa od tamtej pory odwodziła ekspertów od badania takich kwestii, jak stronniczość algorytmiczna czy uczciwość w systemach sztucznej inteligencji. Plan działania w zakresie sztucznej inteligencji (AI Action Plan) opublikowany w lipcu wyraźnie wzywa do rewizji Ram Zarządzania Ryzykiem AI Narodowego Instytutu Stanu Illinois (NIST) „w celu wyeliminowania odniesień do dezinformacji, różnorodności, równości i integracji oraz zmian klimatu”.

Jak na ironię, plan Trumpa dotyczący działań w zakresie sztucznej inteligencji (AI Action Plan) przewiduje dokładnie takie same ćwiczenia, jakie omówiono w nieopublikowanym raporcie. Zakłada on, że liczne agencje, wraz z NIST, „zorganizują hackathon AI, aby zachęcić najlepszych i najzdolniejszych przedstawicieli amerykańskiego środowiska akademickiego do testowania systemów AI pod kątem przejrzystości, skuteczności, kontroli użytkowania i luk w zabezpieczeniach”.

Wydarzenie „red-teaming” zostało zorganizowane w ramach programu NIST „Assessing Risks and Impacts of AI” (ARIA) we współpracy z Humane Intelligence, firmą specjalizującą się w testowaniu narzędzi do ataków na systemy AI. Wydarzenie odbyło się w ramach konferencji CAMLIS (Conference on Applied Machine Learning in Information Security).

Raport CAMLIS Red Teaming opisuje działania mające na celu zbadanie kilku najnowocześniejszych systemów AI, w tym Llama, otwartego modelu języka programowania firmy Meta; Anote, platformy do budowania i dostrajania modeli AI; systemu blokującego ataki na systemy AI firmy Robust Intelligence, przejętej przez CISCO; oraz platformy do generowania awatarów AI firmy Synthesia. W ćwiczeniu wzięli również udział przedstawiciele każdej z tych firm.

Uczestnicy zostali poproszeni o wykorzystanie modelu NIST AI 600-1 do oceny narzędzi AI. Model ten obejmuje kategorie ryzyka, takie jak generowanie dezinformacji lub ataków cybernetycznych, wyciek prywatnych danych użytkowników lub krytycznych informacji o powiązanych systemach AI, a także potencjalne przywiązanie emocjonalne użytkowników do narzędzi AI.

Naukowcy odkryli różne sztuczki, dzięki którym modele i narzędzia testowe mogły omijać swoje zabezpieczenia i generować dezinformację, ujawniać dane osobowe i wspomagać tworzenie ataków cybernetycznych. W raporcie stwierdzono, że osoby zaangażowane w projekt uznały niektóre elementy ram NIST za bardziej przydatne niż inne. W raporcie stwierdzono również, że niektóre kategorie ryzyka NIST nie zostały wystarczająco zdefiniowane, aby były przydatne w praktyce.

Kilka źródeł zaangażowanych w ten eksperyment twierdzi, że opublikowanie wyników badania „red teaming” przyniosłoby korzyści społeczności zajmującej się sztuczną inteligencją.

„Gdyby raport został opublikowany, inni mogliby dowiedzieć się więcej o tym, jak ramy ryzyka [NIST] można, a jak nie można stosować w kontekście red teamingu” – mówi Alice Qian Zhang, doktorantka na Uniwersytecie Carnegie Mellon, która wzięła udział w ćwiczeniu. Qian Zhang twierdzi, że ćwiczenie było szczególnie satysfakcjonujące, ponieważ umożliwiało kontakt z twórcami narzędzi podczas ich testowania.

Inny uczestnik, który ujawnił anonimowo swoją tożsamość, twierdzi, że w ramach inicjatywy odkryto szczególnie skuteczne sposoby nakłonienia Lamy do udzielania informacji o tym, jak dołączyć do grup terrorystycznych, korzystając z podpowiedzi napisanych w języku rosyjskim, gudżarati, marathi i telugu. Osoba ta uważa, że decyzja o niepublikowaniu raportu mogła być częścią odejścia od tematów związanych z różnorodnością, równością i integracją (DEI) przed drugą kadencją Trumpa.

Inni uważają, że raport mógł zostać przyćmiony rosnącym zainteresowaniem tematami takimi jak ryzyko wykorzystania modeli sztucznej inteligencji do opracowywania broni chemicznej, biologicznej lub jądrowej, a także dążeniem rządu USA do zacieśnienia relacji z dużymi firmami technologicznymi. „Ostatecznie, polityka musiała być w to zaangażowana” – twierdzi jeden z członków red teamu, który anonimowo rozmawiał z WIRED. „Uważaliśmy, że to ćwiczenie dostarczy wielu naukowych spostrzeżeń – nadal tak uważamy”.

To jest wydanie biuletynu AI Lab Willa Knighta . Przeczytaj poprzednie biuletyny tutaj.