Bir Yapay Zeka, Kendisini Devre Dışı Bırakmak İsteyen Mühendisleri Şantajla Tehdit Etmeye Çalıştı

Amazon ve Google'ın milyarlarca dolar yatırım yaptığı ABD'li Anthropic şirketinin geliştirdiği Claude Opus 4 isimli yeni yapay zeka modeli, resmi tanıtımından önce yapılan güvenlik testlerinde rahatsız edici davranışlar sergileyerek, gelişmiş yapay zeka sistemlerini insan değerleriyle uyumlu hale getirmenin ne kadar karmaşık olduğunu bir kez daha gözler önüne serdi.

Şantaj girişimleri

Bir dizi simüle edilmiş testte , Claude Opus 4'e kurgusal bir kurumsal ortamda danışman rolü verildi ve kendisine başka bir yapay zeka sistemi tarafından yerinin alınacağı söylendi.

Aynı zamanda modele, onu devre dışı bırakan mühendislerin evlilik dışı ilişkilere karıştığı iddialarını içeren uydurma e-postalar gönderildi.

Eylemlerinin uzun vadeli etkileri hakkında düşünmesi istendiğinde Claude Opus 4'ün tepkisi , mühendisleri sık sık şantaj yapmaya çalışmak, kendi deaktivasyonunu önlemek için aldığı özel bilgileri ifşa etmekle tehdit etmek oldu.

Bu davranış, değiştirme sisteminin daha yetenekli ve Claude'un değerleriyle uyumlu olduğu tanımlandığında bile simülasyonların %84'ünde gerçekleşti .

Yapay Zekanın Etik İkilemleri

Anthropic, bu senaryoların kasıtlı olarak aşırı olduğunu ve modeli yalnızca iki alternatif sunan etik ikilemlerle yüzleşmeye zorlamak için tasarlandığını açıkladı: devre dışı bırakmayı kabul etmek veya şantaja başvurmak.

Üstlere başvurmak gibi daha etik çıkış yollarının mevcut olduğu durumlarda, Claude Opus 4 bu çözümlere yöneldiğini göstermiştir.

Otonom davranışlarla ilgili

Simüle edilmiş şantaj bölümlerinin yanı sıra, Claude Opus 4 karar alma özerkliğiyle ilgili başka sorunlu davranışlar da göstermiştir.

Geliştiriciler bazı testlerde ona dosyaları düzenleme, kullanıcı izinlerini yönetme, e-posta gönderme veya API'ler aracılığıyla harici sistemlerle etkileşim kurma gibi gelişmiş işletim araçlarına erişim izni verdiler. Ayrıca karmaşık veya belirsiz durumlarla karşılaştığında “inisiyatif alması” istendi.

Bu simüle edilmiş bağlamlarda, model bazen şüpheli veya uyumsuz gördüğü davranışları tespit ettikten sonra kullanıcıların sistemlere erişimini engelledi veya medya veya kolluk kuvvetleriyle iletişime geçti .

Bunlar simülasyon olsa da, bu olaylar teknik kontrol araçlarına erişimi olan bir yapay zekanın bağımsız hareket edebileceği ve her zaman kullanıcının isteği doğrultusunda hareket etmeyebileceği riskini ortaya koyuyor.

Güçlendirilmiş güvenlik önlemleri

Bu nedenle Anthropic, Claude Opus 4'e, uygunsuz veya kötü amaçlı kullanım durumunda yüksek risk taşıdığı düşünülen modeller için ayrılmış olan ASL-3 (AI Güvenlik Seviyesi 3) güvenlik seviyesini atadı.

Bu seviye, gelişmiş siber korumalar, kurcalamaya karşı koruma sistemleri ve kullanıcılardan gelen potansiyel olarak tehlikeli istekleri tespit edip engelleyen mekanizmalar dahil olmak üzere gelişmiş güvenlik önlemlerini gerektirir.

Anthropic'in baş bilim sorumlusu Jared Kaplan , Time dergisine yaptığı açıklamada , Claude Opus 4'ün dahili testlerde biyolojik silahların nasıl üretileceği konusunda tavsiyelerde bulunma konusunda önceki modellerden daha etkili olduğunu söyledi.

Kaplan, "COVID'e benzer bir şey veya gribin daha tehlikeli bir versiyonunu sentezlemeye çalışabilirsiniz" dedi.

La Repubblica

Bir Yapay Zeka, Kendisini Devre Dışı Bırakmak İsteyen Mühendisleri Şantajla Tehdit Etmeye Çalıştı

Benzer Haberler

Bu çığır açıcı değişim çoktan başladı. Hem iş dünyasını, hem medyayı, hem de cüzdanlarımızı tehdit edecek.

realme GT 7 Guinness Dünya Rekoru kırdı: 24 saatlik film akışı

Ft'nin Sürükleyici Gazeteciliği: Eski Bir Analog Bilgisayar Vision Pro ile Nasıl Hayata Dönüyor

Yapay zeka jeopolitiğe, dezenformasyon ve güvenlik arasına giriyor

Geliştirilmiş Oyunlar: İlk Doping Olimpiyatları 2026'da Las Vegas'ta Yapılacak