Alibaba Group’un bulut bilişim kolu Alibaba Cloud, Çin’in yaklaşan yeni yılına denk gelen Salı günü, yapay zeka alanında önemli bir gelişmeyi duyurdu: Qwen 2.5-Max isimli büyük dil modeli (LLM). Şirket, bu yeni modelin mevcut en güçlü yapay zeka modellerinden daha üstün olduğunu iddia ediyor.
Qwen 2.5-Max, son iki hafta içinde Çin’den çıkan ikinci büyük yapay zeka modeli olarak dikkat çekiyor. Daha önce DeepSeek adlı Çin merkezli yapay zeka araştırma girişimi, R1 isimli muhakeme modelini tanıtmıştı. DeepSeek, R1 modelinin, ABD merkezli şirketlerin geliştirdiği en güçlü modellerle rekabet edebileceğini ve bunun çok daha düşük maliyetle başarıldığını öne sürmüştü.
Alibaba, yeni modelin, “büyük ölçekli bir uzman karışımı LLM modeli” olduğunu ve 20 trilyonun üzerinde token ile eğitildiğini açıkladı. Modelin, “Özel Denetimli İnce Ayar (Supervised Fine-Tuning) ve İnsan Geri Bildiriminden Güç Alan Pekiştirmeli Öğrenme” yöntemleriyle eğitildiği belirtiliyor.
Uzman karışımı (MoE) mimarisi, karmaşık görevleri daha etkili şekilde yerine getirebilmek için birden fazla özel modelin bir arada çalışmasını sağlayan bir yapı sunuyor. Bu yaklaşımda, her bir model, belirli bir bilgi alt kümesi üzerine yoğunlaşarak kendi alanında en iyi sonuçları üretiyor ve diğer modellerle koordineli şekilde görevleri tamamlıyor.
Alibaba, bu yöntem sayesinde Qwen 2.5-Max’in, özellikle ArenaHard, LiveBench ve MMLU-Pro gibi temel kıyaslama testlerinde, DeepSeek’in en son modeli DeepSeek-V3’ü geride bıraktığını belirtti. Ayrıca, modelin Anthropic PBC’nin Claude 3.5 Sonnet’ini, OpenAI’nin GPT-4o’sını ve Meta Platforms Inc.’in Llama 3.1-401B’sini de aştığı ifade ediliyor.
Yeni model, eğitim sürecinde yalnızca 20 trilyon token kullanarak daha az kaynakla daha yüksek verimlilik sunmayı başardı. Bu da, modelin dağıtımı ve işletilmesi sırasında daha düşük maliyetli bir yapı sunmasına olanak tanıyor. Alibaba, bu ölçekleme çalışmalarının yapay zeka modellerinin düşünme ve muhakeme kapasitelerini artırma konusundaki taahhütlerini yansıttığını vurguladı.
Ancak diğer Qwen modellerinden farklı olarak Qwen 2.5-Max, henüz açık kaynak olarak sunulmadı. Geliştiricilere, Alibaba Cloud üzerinde, OpenAI’nin API’siyle uyumlu bir arayüz aracılığıyla erişim sağlanıyor. Ayrıca, Qwen Chat adlı ChatGPT benzeri bir sohbet robotu üzerinden de kullanılabiliyor.
Ağustos ayında duyurulan Qwen2-VL modeline de değinmek gerekiyor. Bu model, video içeriklerini analiz etme ve uzun videoları anlamlandırma konusunda gelişmiş görsel dil özelliklerine sahip. Yüksek kalitede 20 dakikalık videoları işleyip içeriği hakkında sorulara cevap verebiliyor.
Bu gelişmeler, Çinli teknoloji devlerinin küresel yapay zeka yarışında etkili bir pozisyon elde etme çabasının altını çiziyor. Özellikle ABD merkezli büyük teknoloji şirketleriyle yaşanan rekabetin derinleşmesi, Çin’in yapay zeka alanında daha agresif adımlar atmasını sağlıyor. Alibaba ve DeepSeek gibi şirketler, maliyet-etkin ve yenilikçi modellerle bu alandaki iddialarını artırıyor.