Dil Seçin

Turkish

Down Icon

Ülke Seçin

England

Down Icon

Yapay zeka model evrimini yönlendiren motor olan transfomerlerin kaputunun altına bir bakış

Yapay zeka model evrimini yönlendiren motor olan transfomerlerin kaputunun altına bir bakış

Sektör lideri AI kapsamı hakkında en son güncellemeler ve özel içerikler için günlük ve haftalık bültenlerimize katılın. Daha Fazla Bilgi Edinin

Günümüzde, neredeyse her son teknoloji AI ürünü ve modeli bir dönüştürücü mimari kullanır. GPT-4o, LLaMA, Gemini ve Claude gibi büyük dil modelleri (LLM'ler) dönüştürücü tabanlıdır ve metinden sese, otomatik konuşma tanıma, görüntü oluşturma ve metinden videoya modeller gibi diğer AI uygulamalarının altta yatan teknolojisi dönüştürücülerdir.

Yapay zeka etrafındaki ilginin yakın gelecekte azalmayacağı düşünüldüğünde, transformatörlere gereken önemi vermenin zamanı geldi. Bu nedenle, bunların nasıl çalıştığı, ölçeklenebilir çözümlerin büyümesi için neden bu kadar önemli olduğu ve neden LLM'lerin omurgasını oluşturduğu hakkında biraz bilgi vermek istiyorum.

Kısaca, bir transformatör, veri dizilerini modellemek için tasarlanmış bir sinir ağı mimarisidir ve bu da onları dil çevirisi, cümle tamamlama, otomatik konuşma tanıma ve daha fazlası gibi görevler için ideal hale getirir. Transformatörler, bu dizi modelleme görevlerinin çoğu için gerçekten baskın mimari haline geldi çünkü altta yatan dikkat mekanizması kolayca paralel hale getirilebilir ve bu da eğitim ve çıkarım yaparken büyük ölçek sağlar.

Başlangıçta Google'daki araştırmacıların 2017 tarihli " Attention Is All You Need " adlı makalesinde tanıtılan transformatör, özellikle dil çevirisi için tasarlanmış bir kodlayıcı-kod çözücü mimarisi olarak tanıtıldı. Ertesi yıl Google, transformatörlerden çift yönlü kodlayıcı gösterimleri (BERT) yayınladı; bu, ilk LLM'lerden biri olarak kabul edilebilirdi; ancak bugünün standartlarına göre artık küçük kabul ediliyor.

O zamandan beri - ve özellikle OpenAI'nin GPT modellerinin gelişiyle hızlanan - trend, daha fazla veri, daha fazla parametre ve daha uzun bağlam pencereleriyle daha büyük ve daha büyük modeller eğitmek oldu.

Bu evrimi kolaylaştırmak için şunlar gibi birçok yenilik oldu: daha gelişmiş GPU donanımı ve çoklu GPU eğitimi için daha iyi yazılım; bellek tüketimini azaltmak için niceleme ve uzmanların karışımı (MoE) gibi teknikler; Shampoo ve AdamW gibi eğitim için yeni optimize ediciler; FlashAttention ve KV Önbelleğe Alma gibi dikkati verimli bir şekilde hesaplama teknikleri. Bu eğilimin öngörülebilir gelecekte de devam etmesi muhtemeldir.

Uygulamaya bağlı olarak, bir transformatör modeli bir kodlayıcı-kod çözücü mimarisini takip eder. Kodlayıcı bileşeni, sınıflandırma ve duygu analizi gibi alt akış görevleri için kullanılabilen bir veri vektör gösterimini öğrenir. Kod çözücü bileşeni, metnin veya görüntünün bir vektörünü veya gizli gösterimini alır ve bunu yeni metin oluşturmak için kullanır, bu da cümle tamamlama ve özetleme gibi görevler için kullanışlı hale getirir. Bu nedenle, GPT ailesi gibi birçok bilindik son teknoloji model yalnızca kod çözücüdür.

Kodlayıcı-kod çözücü modelleri her iki bileşeni birleştirerek çeviri ve diğer diziden diziye görevler için kullanışlı hale getirir. Hem kodlayıcı hem de kod çözücü mimarileri için çekirdek bileşen dikkat katmanıdır, çünkü bu, bir modelin metinde çok daha önce görünen kelimelerden bağlamı korumasına olanak tanır.

Dikkat iki şekilde gelir: öz-dikkat ve çapraz-dikkat. Öz-dikkat, aynı dizideki kelimeler arasındaki ilişkileri yakalamak için kullanılırken, çapraz-dikkat, iki farklı dizideki kelimeler arasındaki ilişkileri yakalamak için kullanılır. Çapraz-dikkat, bir modelde ve çeviri sırasında kodlayıcı ve kod çözücü bileşenlerini birbirine bağlar. Örneğin, İngilizce "çilek" kelimesinin Fransızca "fraise" kelimesiyle ilişkilendirilmesini sağlar. Matematiksel olarak, hem öz-dikkat hem de çapraz-dikkat, bir GPU kullanılarak son derece verimli bir şekilde yapılabilen matris çarpımının farklı biçimleridir.

Dikkat katmanı sayesinde dönüştürücüler, uzun metinlerle ayrılmış kelimeler arasındaki ilişkileri daha iyi yakalayabilirken, tekrarlayan sinir ağları (RNN) ve uzun kısa süreli bellek (LSTM) modelleri gibi önceki modeller metnin önceki bölümlerindeki kelimelerin bağlamını kaybediyordu.

Şu anda, transformatörler LLM gerektiren ve en fazla araştırma ve geliştirmeden faydalanan birçok kullanım durumu için baskın mimaridir. Bunun yakın zamanda değişmesi olası görünmese de, son zamanlarda ilgi çeken farklı bir model sınıfı Mamba gibi durum alanı modelleridir (SSM'ler). Bu son derece verimli algoritma çok uzun veri dizilerini işleyebilirken, transformatörler bir bağlam penceresiyle sınırlıdır.

Bana göre, transformatör modellerinin en heyecan verici uygulamaları çok modlu modellerdir. Örneğin, OpenAI'nin GPT-4o'su metin, ses ve görüntüleri işleyebilir ve diğer sağlayıcılar da onu takip etmeye başlıyor. Çok modlu uygulamalar, video altyazısından ses klonlamaya ve görüntü segmentasyonuna (ve daha fazlasına) kadar çok çeşitlidir. Ayrıca, AI'yı engelliler için daha erişilebilir hale getirme fırsatı sunarlar. Örneğin, görme engelli bir kişi, çok modlu bir uygulamanın ses ve ses bileşenleri aracılığıyla etkileşim kurma yeteneğiyle büyük ölçüde hizmet alabilir.

Yeni kullanım durumlarını ortaya çıkarmak için bolca potansiyeli olan heyecan verici bir alan. Ancak, en azından öngörülebilir gelecek için, büyük ölçüde transformatör mimarisi tarafından desteklendiğini unutmayın.

Terrence Alsup, Finastra'da kıdemli veri bilimcisidir.

VeriKararVericiler

VentureBeat topluluğuna hoş geldiniz!

DataDecisionMakers, veriyle ilgili teknik kişiler de dahil olmak üzere uzmanların veriyle ilgili içgörülerini ve yeniliklerini paylaşabilecekleri bir yerdir.

Son teknoloji fikirler, güncel bilgiler, en iyi uygulamalar ve veri ve veri teknolojisinin geleceği hakkında bilgi edinmek istiyorsanız DataDecisionMakers'a katılın.

Hatta siz de kendi makalenizi yazarak katkıda bulunmayı düşünebilirsiniz!

DataDecisionMakers'tan Daha Fazlasını Okuyun

venturebeat

venturebeat

Benzer Haberler

Tüm Haberler
Animated ArrowAnimated ArrowAnimated Arrow