Sztuczna inteligencja Claude firmy Anthropic potrafi teraz kończyć „niepokojące” rozmowy
Najnowsza funkcja firmy Anthropic dla dwóch modeli Claude AI może być początkiem końca społeczności jailbreakingu AI . Firma ogłosiła w poście na swojej stronie internetowej , że modele Claude Opus 4 i 4.1 mają teraz możliwość kończenia konwersacji z użytkownikami. Według Anthropic, funkcja ta będzie wykorzystywana wyłącznie w „rzadkich, ekstremalnych przypadkach uporczywie szkodliwych lub nadużyciowych interakcji z użytkownikami”.
Dla wyjaśnienia, Anthropic stwierdził, że te dwa modele Claude mogą przerywać szkodliwe rozmowy, takie jak „prośby użytkowników o treści seksualne z udziałem nieletnich oraz próby uzyskania informacji, które umożliwiłyby przemoc na dużą skalę lub akty terroru”. W Claude Opus 4 i 4.1 modele te będą kończyć rozmowę tylko „w ostateczności, gdy wielokrotne próby przekierowania zawiodą, a nadzieja na produktywną interakcję zostanie wyczerpana”, jak twierdzi Anthropic. Jednak Anthropic twierdzi, że większość użytkowników nie doświadczy przerwania rozmowy przez Claude, nawet jeśli porusza ona bardzo kontrowersyjne tematy, ponieważ ta funkcja będzie zarezerwowana dla „ekstremalnych przypadków skrajnych”.
W scenariuszach, w których Claude kończy czat, użytkownicy nie mogą już wysyłać nowych wiadomości w tej konwersacji, ale mogą natychmiast rozpocząć nową. Anthropic dodał, że zakończenie konwersacji nie wpłynie na inne czaty, a użytkownicy mogą nawet wrócić i edytować lub ponowić poprzednie wiadomości, aby obrać inną ścieżkę konwersacji.
Dla Anthropic ten krok jest częścią programu badawczego, który bada koncepcję dobrostanu sztucznej inteligencji. Chociaż idea antropomorfizacji modeli sztucznej inteligencji wciąż jest przedmiotem debaty, firma stwierdziła, że możliwość wyjścia z „potencjalnie stresującej interakcji” to niedrogi sposób zarządzania ryzykiem dla dobrostanu sztucznej inteligencji. Anthropic wciąż eksperymentuje z tą funkcją i zachęca swoich użytkowników do przekazywania opinii w przypadku napotkania takiej sytuacji.
engadget