Damıtma, Yapay Zeka Modellerini Daha Küçük ve Daha Ucuz Hale Getirebilir

Bu hikayenin orijinal versiyonu Quanta Dergisi'nde yayınlanmıştır .
Çinli yapay zeka şirketi DeepSeek, bu yılın başlarında R1 adlı bir sohbet robotu yayınladı ve bu robot büyük ilgi gördü. İlginin büyük kısmı, nispeten küçük ve bilinmeyen bir şirketin, dünyanın en ünlü yapay zeka şirketlerininkilerle rekabet edebilecek, ancak çok daha az bilgisayar gücü ve maliyet kullanan bir sohbet robotu geliştirdiğini açıklamasına odaklanıyordu . Sonuç olarak, birçok Batılı teknoloji şirketinin hisseleri düştü; önde gelen yapay zeka modellerini çalıştıran çipleri satan Nvidia, tek bir günde tarihteki herhangi bir şirketten daha fazla değer kaybetti .
Bu ilginin bir kısmı suçlama unsuru içeriyordu. Kaynaklar, DeepSeek'in damıtma olarak bilinen bir teknik kullanarak OpenAI'nin tescilli o1 modelinden izinsiz bilgi elde ettiğini iddia etti. Haber içeriklerinin çoğu, bu olasılığı yapay zeka sektörü için bir şok olarak nitelendirerek, DeepSeek'in yapay zeka geliştirmenin yeni ve daha verimli bir yolunu keşfettiğini ima etti.
Ancak bilgi damıtımı olarak da adlandırılan damıtma, yapay zekada yaygın olarak kullanılan bir araçtır ve on yıldır bilgisayar bilimi araştırmalarının konusu olup büyük teknoloji şirketlerinin kendi modellerinde kullandığı bir araçtır. Pennsylvania Üniversitesi Wharton Okulu'nda damıtma üzerine çalışan bir araştırmacı olan Enric Boix-Adsera , "Damıtma, şirketlerin modelleri daha verimli hale getirmek için bugün sahip oldukları en önemli araçlardan biridir," diyor.
Karanlık BilgiDamıtma fikri, yapay zekanın sözde babası ve 2024 Nobel ödüllü Geoffrey Hinton da dahil olmak üzere Google'daki üç araştırmacının 2015 tarihli bir makalesiyle başladı. O dönemde araştırmacılar, performanslarını artırmak için genellikle model toplulukları çalıştırıyorlardı; Google DeepMind'ın baş bilim insanı ve makalenin yazarlarından biri olan Oriol Vinyals'ın da belirttiği gibi, "birbirine yapıştırılmış birçok model". Vinyals, "Ancak tüm modelleri paralel olarak çalıştırmak inanılmaz derecede zahmetli ve pahalıydı," dedi. "Bunu tek bir modele damıtma fikri ilgimizi çekti."
Araştırmacılar, makine öğrenimi algoritmalarındaki önemli bir zayıf noktayı ele alarak ilerleme kaydedebileceklerini düşündüler: Yanlış cevaplar, ne kadar yanlış olurlarsa olsunlar, eşit derecede kötü kabul ediliyordu. Örneğin, bir görüntü sınıflandırma modelinde, "bir köpeği bir tilkiyle karıştırmak, bir köpeği bir pizzayla karıştırmakla aynı şekilde cezalandırılıyordu" dedi Vinyals. Araştırmacılar, topluluk modellerinin hangi yanlış cevapların diğerlerinden daha az kötü olduğu hakkında bilgi içerdiğinden şüpheleniyorlardı. Belki de daha küçük bir "öğrenci" modeli, resimleri ayırması gereken kategorileri daha hızlı kavramak için büyük "öğretmen" modelinden gelen bilgileri kullanabilirdi. Hinton buna "karanlık bilgi" adını verdi ve kozmolojik karanlık maddeyle bir benzetme yaptı.
Hinton ile bu olasılığı tartıştıktan sonra Vinyals, büyük öğretmen modelinin görüntü kategorileri hakkında daha fazla bilgiyi daha küçük bir öğrenci modeline aktarmasını sağlayacak bir yol geliştirdi. Anahtar, öğretmen modelinde "yumuşak hedeflere" odaklanmaktı; burada kesin şu veya bu cevaplar yerine her olasılığa olasılıklar atıyordu. Örneğin bir model, bir görüntünün bir köpeği gösterme olasılığının %30, bir kediyi gösterme olasılığının %20, bir ineği gösterme olasılığının %5 ve bir arabayı gösterme olasılığının %0,5 olduğunu hesapladı . Bu olasılıkları kullanarak öğretmen modeli, öğrenciye köpeklerin kedilere oldukça benzer, ineklerden çok da farklı olmadığını ve arabalardan oldukça farklı olduğunu etkili bir şekilde gösterdi. Araştırmacılar, bu bilginin öğrencinin köpek, kedi, inek ve araba görüntülerini daha verimli bir şekilde nasıl tanımlayacağını öğrenmesine yardımcı olacağını buldu. Büyük ve karmaşık bir model, neredeyse hiç doğruluk kaybı olmadan daha yalın bir modele indirgenebilir.
Patlayıcı BüyümeFikir hemen ilgi görmedi. Makale bir konferansta reddedildi ve cesareti kırılan Vinyals başka konulara yöneldi. Ancak damıtma önemli bir anda gerçekleşti. Bu sıralarda, mühendisler sinir ağlarına ne kadar çok eğitim verisi girerlerse, bu ağların o kadar etkili hale geldiğini keşfediyorlardı. Modellerin boyutu ve yetenekleri kısa sürede büyük bir hızla arttı, ancak çalıştırma maliyetleri boyutlarıyla orantılı olarak arttı.
Birçok araştırmacı, daha küçük modeller üretmenin bir yolu olarak damıtmaya yöneldi. Örneğin, 2018'de Google araştırmacıları, şirketin kısa sürede milyarlarca web aramasını ayrıştırmak için kullanmaya başladığı BERT adlı güçlü bir dil modelini tanıttı. Ancak BERT büyük ve çalıştırılması maliyetliydi, bu nedenle ertesi yıl diğer geliştiriciler, DistilBERT adını verdikleri daha küçük bir sürümü geliştirdiler ve bu sürüm iş ve araştırma alanlarında yaygın olarak kullanıldı. Damıtma giderek yaygınlaştı ve artık Google , OpenAI ve Amazon gibi şirketler tarafından bir hizmet olarak sunuluyor. Hâlâ yalnızca arxiv.org ön baskı sunucusunda yayınlanan orijinal damıtma makalesine 25.000'den fazla atıf yapıldı .
Damıtmanın öğretmen modelinin iç yapısına erişim gerektirdiği düşünüldüğünde, üçüncü bir tarafın OpenAI'nin o1 modeli gibi kapalı kaynaklı bir modelden gizlice veri damıtması mümkün değildir; DeepSeek'in yaptığı düşünülüyordu. Bununla birlikte, bir öğrenci modeli, öğretmene belirli sorular yöneltip cevapları kendi modellerini eğitmek için kullanarak bir öğretmen modelinden epey şey öğrenebilir; bu da damıtma için neredeyse Sokratik bir yaklaşımdır.
Bu arada, diğer araştırmacılar yeni uygulamalar bulmaya devam ediyor. Ocak ayında, UC Berkeley'deki NovaSky laboratuvarı, karmaşık soruları daha iyi yanıtlamak için çok adımlı "düşünme" kullanan düşünce zinciri akıl yürütme modellerinin eğitiminde damıtmanın iyi çalıştığını gösterdi . Laboratuvar, tamamen açık kaynaklı Sky-T1 modelinin eğitiminin 450 dolardan daha az maliyetli olduğunu ve çok daha büyük bir açık kaynaklı modelle benzer sonuçlar elde ettiğini belirtiyor. Berkeley'de doktora öğrencisi ve NovaSky ekibinin eş öğrenci lideri Dacheng Li , "Damıtmanın bu ortamda ne kadar iyi çalıştığına gerçekten şaşırdık," dedi. "Damıtma, yapay zekada temel bir tekniktir."
Orijinal hikaye , Simons Vakfı'nın editöryal olarak bağımsız bir yayını olan Quanta Magazine'den izin alınarak yeniden basılmıştır . Vakfın misyonu, matematik, fizik ve yaşam bilimlerindeki araştırma gelişmelerini ve trendlerini ele alarak kamuoyunun bilim anlayışını geliştirmektir.
wired