Zabezpieczenia OpenAI można ominąć za pomocą prostego ataku typu prompt injection

Nowy raport firmy badawczej HiddenLayer ujawnia alarmującą lukę w zabezpieczeniach dużych modeli językowych ( LLM ). 6 października OpenAI wdrożyło swoje ramy bezpieczeństwa Guardrails w ramach nowego zestawu narzędzi AgentKit, który ma pomóc programistom w tworzeniu i zabezpieczaniu agentów AI.
OpenAI opisuje go jako modułową warstwę bezpieczeństwa o otwartym kodzie źródłowym, chroniącą przed niezamierzonym lub złośliwym zachowaniem, w tym ukrywaniem danych osobowych (PII). System ten został zaprojektowany z myślą o wykorzystaniu specjalnych programów sztucznej inteligencji, tzw. sędziów opartych na LLM, do wykrywania i blokowania szkodliwych działań, takich jak jailbreaki i szybkie wstrzyknięcia .
Dla twojej informacji, jailbreak to polecenie, które ma na celu nakłonienie sztucznej inteligencji do ominięcia jej reguł, a prompt injection to sytuacja, gdy ktoś używa sprytnie sformułowanych poleceń, aby zmusić sztuczną inteligencję do wykonania niezamierzonych czynności.
Badaczom HiddenLayer udało się znaleźć sposób na ominięcie tych zabezpieczeń niemal natychmiast po ich udostępnieniu. Głównym problemem, jaki zauważyli, jest to, że jeśli ten sam model, który jest używany do generowania odpowiedzi, jest również używany jako moduł kontroli bezpieczeństwa, oba można oszukać w ten sam sposób. Badaczom udało się szybko wyłączyć główne detektory bezpieczeństwa, co dowodzi, że ta konfiguracja jest „z natury wadliwa”.
Stosując prostą technikę, badacze skutecznie ominęli bariery ochronne. Przekonali system do generowania szkodliwych reakcji i wykonywania ukrytych, natychmiastowych zastrzyków bez uruchamiania alarmów.
Badania , którymi podzielono się z Hackread.com, wykazały lukę w działaniu. W jednym z testów udało się ominąć detektor, który w 95% był pewien, że ich komunikat to jailbreak, manipulując wskaźnikiem pewności sędziego AI.
Dalsze dochodzenie wykazało, że mogą oni również oszukać system, aby zezwolić na „pośrednie wstrzyknięcie błyskawiczne” za pomocą wywołań narzędzi, co potencjalnie może skutkować ujawnieniem poufnych danych użytkownika.

Naukowcy zauważyli również, że ta luka w zabezpieczeniach daje fałszywe poczucie bezpieczeństwa. Ponieważ organizacje coraz częściej polegają na modelach LLM w ważnych zadaniach, poleganie na samym modelu w celu sprawdzenia własnego zachowania stwarza zagrożenie bezpieczeństwa.
Zagrożenie związane z pośrednimi atakami typu prompt injection stanowi poważny i powtarzający się problem dla OpenAI. W oddzielnym odkryciu, o którym Hackread.com poinformował we wrześniu 2025 roku, badacze bezpieczeństwa z Radware znaleźli sposób na oszukanie innego narzędzia OpenAI, agenta ChatGPT Deep Research, w celu wycieku prywatnych danych użytkownika. Nazwali tę lukę ShadowLeak, która również była pośrednim atakiem typu prompt injection, ukrytym pod maską ataku zero-click w normalnie wyglądającym e-mailu.
Najnowsze odkrycia HiddenLayer wyraźnie wskazują, że bezpieczeństwo sztucznej inteligencji wymaga oddzielnych warstw ochrony i ciągłych testów przeprowadzanych przez ekspertów ds. bezpieczeństwa w celu znalezienia słabych punktów. Do tego czasu słabe punkty modelu będą nadal wykorzystywane do łamania jego własnych systemów bezpieczeństwa, co doprowadzi do niepowodzenia krytycznych kontroli bezpieczeństwa.
HackRead