Przygotujcie się, nadchodzą hacki AI

Zastanów się dwa razy, zanim poprosisz asystenta Google Gemini AI o podsumowanie Twojego harmonogramu, ponieważ może to doprowadzić do utraty kontroli nad wszystkimi Twoimi inteligentnymi urządzeniami. Podczas prezentacji na Black Hat USA, dorocznej konferencji poświęconej cyberbezpieczeństwu w Las Vegas, grupa badaczy pokazała, jak atakujący mogą umieszczać ukryte polecenia w czymś tak prostym, jak zaproszenie do Kalendarza Google, i wykorzystywać je do przejęcia kontroli nad inteligentnymi urządzeniami – to przykład rosnącego wektora ataku, jakim są ataki typu prompt injection.

W artykule zatytułowanym „Zaproszenie to wszystko, czego potrzebujesz!” naukowcy opisali 14 różnych sposobów, w jakie udało im się manipulować Gemini za pomocą wstrzyknięć błyskawicznych, czyli rodzaju ataku, w którym złośliwe i często ukryte komunikaty służą do generowania szkodliwych wyników przez duże modele językowe.

Być może najbardziej zaskakującym z nich, jak podkreślił Wired , był atak, który przejął kontrolę nad urządzeniami i akcesoriami podłączonymi do internetu, wykonując różne czynności, od wyłączania świateł po włączanie kotła – w zasadzie odbierając właścicielowi kontrolę nad domem i potencjalnie stawiając go w niebezpiecznej lub kompromitującej sytuacji. Inne ataki zmusiły Gemini do rozpoczęcia rozmowy przez Zoom, przechwycenia danych z wiadomości e-mail i pobrania pliku z przeglądarki internetowej w telefonie.

Większość tych ataków zaczyna się od czegoś tak prostego, jak zaproszenie do Kalendarza Google, które jest zatruwane natychmiastowymi wstrzyknięciami, które po aktywacji powodują, że model sztucznej inteligencji podejmuje działania omijające wbudowane protokoły bezpieczeństwa. To jednak nie pierwsze przykłady, jakie badacze bezpieczeństwa zdołali zebrać, aby pokazać potencjalne luki w zabezpieczeniach LLM. Inni wykorzystali natychmiastowe wstrzyknięcia do przejęcia kontroli nad asystentami kodu, takimi jak Cursor . Zaledwie w zeszłym miesiącu narzędzie do kodowania Amazona zostało zinfiltrowane przez hakera , który polecił mu usunięcie plików z komputerów, na których działało.

Staje się również coraz bardziej oczywiste, że modele sztucznej inteligencji zdają się reagować na ukryte polecenia. W niedawnym artykule odkryto, że model sztucznej inteligencji używany do trenowania innych modeli przekazywał dziwactwa i preferencje, pomimo że konkretne odniesienia do takich preferencji zostały odfiltrowane z danych. Sugeruje to, że między maszynami mogą być przesyłane komunikaty, których nie da się bezpośrednio zaobserwować.

LLM-y w dużej mierze pozostają czarnymi skrzynkami. Ale jeśli jesteś złośliwym aktorem, niekoniecznie musisz rozumieć, co dzieje się pod maską. Musisz tylko wiedzieć, jak tam umieścić wiadomość, która sprawi, że maszyna będzie działać w określony sposób. W przypadku tych ataków badacze poinformowali Google o luce w zabezpieczeniach, a firma zajęła się tym problemem, zgodnie z Wired . Ale wraz z integracją sztucznej inteligencji z większą liczbą platform i większą liczbą obszarów życia publicznego, rośnie ryzyko, że takie słabości się pojawią. Jest to szczególnie niepokojące, ponieważ agenci AI, którzy mają możliwość interakcji z aplikacjami i stronami internetowymi w celu wykonywania wieloetapowych zadań, zaczynają się pojawiać . Co może pójść nie tak?