Yandex, grafik işlemci birimi (GPU) kaynaklarında yüzde 20’ye kadar tasarruf sağlayan büyük dil modelleri (Large Language Model – LLM) eğitim aracı YaFSDP‘yi açık kaynak olarak kullanıma sunduğunu duyurdu. Şirketten yapılan açıklamaya göre, Yandex, LLM‘in eğitimi için yeni ve açık kaynaklı yöntemi YaFSDP‘yi tanıttı. YaFSDP, GPU iletişimini geliştirmek ve LLM eğitiminde bellek kullanımını azaltmak için halka açık en etkili yöntemi simgeliyor.
Yeni yöntem, mimariye ve parametre sayısına bağlı olarak FSDP‘ye kıyasla yüzde 26’ya varan hızlanma sunuyor. YaFSDP kullanımıyla LLM‘lerin eğitim süresinin azaltılması, GPU kaynaklarında yüzde 20’ye varan tasarruf sağlama potansiyeline sahip oluyor. Küresel yapay zeka topluluğunun gelişimine anlamlı bir katkı sunma amacıyla Yandex, YaFSDP‘yi dünya çapındaki LLM geliştiricilerinin ve yapay zeka meraklılarının kullanımına açtı.
Açıklamada görüşlerine yer verilen Yandex Kıdemli Geliştiricisi Mikhail Khruschev, YaFSDP‘nin çok yönlülüğünü genişletmek için çeşitli model mimarileri ve parametre boyutları üzerinde aktif olarak deneyler yapmaya devam ettiklerini belirterek, “LLM eğitimindeki gelişmelerimizi küresel makina öğrenimi topluluğuyla paylaşmaktan, dünya genelindeki araştırmacılar ve geliştiriciler için erişilebilirliğin ve verimliliğin artmasına katkıda bulunmaktan heyecan duyuyoruz.” ifadelerini kullandı.
YaFSDP‘nin, 13 ila 70 milyar parametre arasında değişen modellerde etkileyici sonuçlar gösterdiğini kaydeden Khruschev, “YaFSDP, şu an LLaMA mimarisine dayalı yaygın olarak kullanılan açık kaynaklı modeller arasında en uygun olanıdır.” değerlendirmesinde bulundu.
YaFSDP, Türkiye’deki dil modeli geliştirme projelerine de katkı sağlayacak. Türkiye’de yer alan çeşitli teknoloji ve finans kuruluşları, Türkçe dil modelleri geliştirerek bu alanda dünya çapında önemli projelere imza atıyor. Türkiye’de geliştirilen bu büyük dil modelleri, Yandex‘in sunduğu YaFSDP yöntemi, GPU tasarrufları ve eğitim hızlandırmalarından faydalanarak projelerini daha verimli ve maliyet etkin bir şekilde gerçekleştirebilecek.
LLM‘lerin eğitimi, zaman alıcı ve yoğun kaynak gerektiren bir süreç oluyor. Kendi LLM‘lerini geliştirmek isteyen makine öğrenimi mühendisleri ve şirketler, bu modellerin eğitimi için önemli miktarda zaman ve GPU kaynağı, dolayısıyla para harcamak zorunda kalıyor. Model ne kadar büyükse, eğitimi için gereken zaman ve masraf da o kadar artıyor. Yandex YaFSDP, GPU iletişimindeki verimsizliği ortadan kaldırarak GPU etkileşimlerini kesintisiz hale getiriyor ve eğitimin yalnızca gerektiği kadar işlem belleği kullanmasını sağlıyor.
YaFSDP, öğrenme hızını ve performansını optimize ederek dünya çapındaki yapay zeka geliştiricilerinin modellerini eğitirken daha az bilgi işlem gücü ve GPU kaynağı kullanmalarına yardımcı oluyor. Örneğin, 70 milyar parametreli bir modeli içeren ön eğitim senaryosunda, YaFSDP kullanmak, yaklaşık 150 GPU kaynağına denk tasarruf sağlama potansiyeline sahip bulunuyor. Bu da sanal GPU sağlayıcısına veya platformuna bağlı olarak ayda 500 bin ila 1,5 milyon dolar arası tasarruf anlamına geliyor.
FSDP‘nin geliştirilmiş versiyonlarından YaFSDP, ön eğitim, hizalama ve ince ayar gibi LLM eğitiminin iletişim ağırlıklı aşamalarında FSDP yöntemine kıyasla daha iyi performans gösteriyor. YaFSDP‘nin “Llama 2” ve “Llama 3” üzerinde gösterdiği nihai hızlanma, “Llama 2 70B” ve “Llama 3 70B” üzerinde sırasıyla yüzde 21 ve yüzde 26’ya ulaşarak eğitim hızında önemli gelişmeler olduğunu ortaya koyuyor.
Yandex‘in açık kaynak olarak sunduğu YaFSDP, küresel yapay zeka topluluğu için önemli bir adım olarak değerlendiriliyor. Bu yeni yöntem, hem yerel hem de uluslararası arenada LLM eğitim süreçlerinde verimlilik ve tasarruf sağlamayı hedefliyor.