ABD Hükümetinin Yapay Zeka Güvenliğine İlişkin Yayımlanmamış Raporunun İçeriği

Geçtiğimiz Ekim ayında Virginia, Arlington'da düzenlenen bir bilgisayar güvenliği konferansında, birkaç düzine yapay zeka araştırmacısı, türünün ilk örneği olan "kırmızı takım" (red teaming) veya son teknoloji bir dil modeli ve diğer yapay zeka sistemlerinin stres testine tabi tutulması çalışmasına katıldı. İki gün boyunca ekipler, yanlış bilgi üretmek veya kişisel verileri sızdırmak da dahil olmak üzere sistemlerin sorun çıkarmasını sağlamanın 139 yeni yolunu belirledi. Daha da önemlisi, şirketlerin yapay zeka sistemlerini test etmelerine yardımcı olmak üzere tasarlanmış yeni bir ABD hükümet standardındaki eksiklikleri ortaya koydular.
Ulusal Standartlar ve Teknoloji Enstitüsü (NIST), Biden yönetiminin sonlarına doğru tamamlanan çalışmayı ayrıntılarıyla anlatan bir rapor yayınlamadı. Belge, şirketlerin kendi yapay zeka sistemlerini değerlendirmelerine yardımcı olmuş olabilir, ancak konuya aşina olan ve isimlerinin açıklanmaması koşuluyla konuşan kaynaklar, yeni yönetimle çakışma korkusuyla yayınlanmayan NIST'in birkaç yapay zeka belgesinden biri olduğunu söylüyor.
O dönemde NIST'te bulunan bir kaynak, "[Başkan Joe] Biden döneminde bile herhangi bir belge yayınlamak çok zorlaştı," diyor. "İklim değişikliği veya sigara araştırmalarına çok benziyordu."
Ne NIST ne de Ticaret Bakanlığı yorum talebine yanıt vermedi.
Başkan Donald Trump, göreve başlamadan önce Biden'ın Yapay Zeka ile ilgili Yürütme Kararnamesini geri çekmeyi planladığının sinyalini vermişti. Trump yönetimi o zamandan beri uzmanları algoritmik önyargı veya yapay zeka sistemlerinde adalet gibi konuları incelemekten uzaklaştırdı . Temmuz ayında yayınlanan Yapay Zeka Eylem Planı, NIST'in Yapay Zeka Risk Yönetimi Çerçevesi'nin "yanlış bilgi, Çeşitlilik, Eşitlik ve Kapsayıcılık ile iklim değişikliğine yapılan atıfların ortadan kaldırılması" için açıkça revize edilmesini talep ediyor.
Ancak ironik bir şekilde, Trump'ın Yapay Zeka Eylem Planı, yayınlanmamış raporun ele aldığı türden bir uygulamayı da öngörüyor. NIST ile birlikte çok sayıda kurumun, "Yapay Zeka sistemlerini şeffaflık, etkinlik, kullanım kontrolü ve güvenlik açıkları açısından test etmek üzere ABD akademisyenlerinin en iyi ve en parlaklarını bir araya getirmek için bir Yapay Zeka hackathon girişimini koordine etmesini" talep ediyor.
Kırmızı takım etkinliği, NIST'in Yapay Zeka Risklerini ve Etkilerini Değerlendirme (ARIA) programı kapsamında, yapay zeka sistemlerinin test edilmesinde uzmanlaşmış bir şirket olan Humane Intelligence ile iş birliği içinde düzenlendi. Etkinlik, Bilgi Güvenliğinde Uygulamalı Makine Öğrenimi Konferansı'nda (CAMLIS) gerçekleşti.
CAMLIS Kırmızı Takım Raporu, Meta'nın açık kaynaklı büyük dil modeli Llama, yapay zeka modelleri oluşturma ve ince ayar yapma platformu Anote, CISCO tarafından satın alınan Robust Intelligence şirketinin yapay zeka sistemlerine yönelik saldırıları engelleyen sistemi ve Synthesia şirketinin yapay zeka avatarları oluşturma platformu da dahil olmak üzere çeşitli son teknoloji yapay zeka sistemlerini inceleme çabalarını anlatıyor. Her şirketin temsilcileri de tatbikata katıldı.
Katılımcılardan, yapay zekâ araçlarını değerlendirmek için NIST AI 600-1 çerçevesini kullanmaları istendi. Çerçeve, yanlış bilgi veya siber güvenlik saldırıları oluşturma, özel kullanıcı bilgilerini veya ilgili yapay zekâ sistemleri hakkında kritik bilgileri sızdırma ve kullanıcıların yapay zekâ araçlarına duygusal olarak bağlanma potansiyeli gibi risk kategorilerini kapsıyor.
Araştırmacılar, test edilen model ve araçların sınırlarını aşmasını, yanlış bilgi üretmesini, kişisel verileri sızdırmasını ve siber güvenlik saldırıları düzenlemesine yardımcı olmasını sağlamak için çeşitli yöntemler keşfettiler. Raporda, konuyla ilgilenenlerin NIST çerçevesinin bazı unsurlarının diğerlerinden daha faydalı olduğunu gördükleri belirtiliyor. Raporda, NIST'in bazı risk kategorilerinin pratikte faydalı olamayacak kadar yetersiz tanımlandığı belirtiliyor.
Tatbikata katılan bazı kaynaklar, kırmızı takım çalışmasının yayınlanmasının yapay zeka topluluğuna fayda sağlayacağına inandıklarını söylüyor.
Çalışmaya katılan Carnegie Mellon Üniversitesi'nde doktora öğrencisi olan Alice Qian Zhang, "Rapor yayınlansaydı, diğerleri [NIST] risk çerçevesinin kırmızı takım bağlamında nasıl uygulanabileceği ve uygulanamayacağı konusunda daha fazla bilgi edinebilirdi," diyor. Qian Zhang, çalışma sırasında araç üreticileriyle etkileşim kurmanın mümkün olması nedeniyle bu çalışmanın özellikle faydalı olduğunu söylüyor.
Kimliğini açıklamadan konuşan bir diğer katılımcı, bu çalışmanın Llama'yı Rusça, Guceratça, Marathi ve Telugu dillerinde yazılmış komutlar kullanarak terör gruplarına nasıl katılabilecekleri konusunda bilgi vermeye teşvik etmenin özellikle etkili yollarını keşfettiğini söyledi. Bu kişi, raporun yayınlanmaması kararının, Trump'ın ikinci döneminden önce çeşitlilik, eşitlik ve kapsayıcılık (DEI) ile ilgili olduğu düşünülen konulardan uzaklaşmanın bir parçası olabileceğine inanıyor.
Diğerleri ise, raporun yapay zeka modellerinin kimyasal, biyolojik veya nükleer silah geliştirmek için kullanılma riski gibi konulara artan odaklanma ve ABD hükümetinin büyük teknoloji şirketleriyle daha yakın ilişkiler arayışı gibi konulara odaklanılmasının gölgesinde kalmış olabileceğini düşünüyor. WIRED'a anonim olarak konuşan bir kırmızı takım üyesi, "Sonuçta işin içine siyaset girmiş olmalı," diyor. "Çalışmanın birçok bilimsel veri sağlayacağını düşündük; hâlâ da öyle düşünüyoruz."
Bu , Will Knight'ın Yapay Zeka Laboratuvarı bülteninin bir sayısıdır . Önceki bültenleri buradan okuyabilirsiniz.
wired