Çin‘deki DeepSeek AI şirketi, yapay zeka alanında önemli bir adım atarak, bugüne kadarki en güçlü “açık” modellerden biri olan DeepSeek V3‘ü piyasaya sürdü. Bu model, geliştiricilerin birçok uygulama için indirebileceği ve değiştirebileceği, ticari kullanıma da izin veren bir lisansla Çarşamba günü yayınlandı.
DeepSeek V3, metin tabanlı birçok iş yükünü ve görevi kapsayacak şekilde tasarlandı. Kod yazma, çeviri, deneme ve e-posta yazma gibi birçok alanda kullanılabilir özelliklere sahip. DeepSeek‘in kendi iç benchmark testlerine göre, DeepSeek V3 hem indirilebilen “açık” modelleri hem de sadece API üzerinden erişilebilen “kapalı” modelleri geride bırakıyor. Özellikle, Codeforces gibi programlama yarışmaları platformlarında Meta’nın Llama 3.1 405B, OpenAI’nin GPT-4o ve Alibaba’nın Qwen 2.5 72B modellerini performans açısından geçiyor.
DeepSeek V3, ayrıca Aider Polyglot adlı bir testte de başarılı oldu. Bu test, bir modelin mevcut koda yeni kod entegre edip edemeyeceğini ölçüyor. DeepSeek, bu modelin 14.8 trilyon token üzerinde eğitildiğini iddia ediyor. Veri biliminde, tokenler ham verinin parçalarını temsil eder; 1 milyon token yaklaşık olarak 750.000 kelimeye eşittir.
Modelin boyutu da dikkat çekici: DeepSeek V3, 671 milyar parametre ile, AI geliştirme platformu Hugging Face üzerinde 685 milyar parametreye ulaşıyor. (Parametreler, modellerin tahmin veya karar vermesi için kullandığı iç değişkenlerdir.) Bu, Llama 3.1 405B‘nin 405 milyar parametresinden yaklaşık 1.6 kat daha büyük bir model. Genellikle (her zaman değilse de) daha fazla parametre, daha iyi performans anlamına gelir, ancak büyük modeller aynı zamanda daha güçlü donanım gerektirir. Optimize edilmemiş bir DeepSeek V3 versiyonu, makul hızlarda yanıt verebilmek için yüksek performanslı GPU dizilerine ihtiyaç duyar.
Pratik olmasa da, DeepSeek V3 bazı açılardan bir başarı olarak kabul edilebilir. DeepSeek, Nvidia H800 GPU‘larla donatılmış bir veri merkezinde modeli sadece iki ayda eğitebildi. Bu GPU’lar, ABD Ticaret Bakanlığı tarafından Çin şirketlerinin alımına kısıtlama getirilmişti. Şirket, DeepSeek V3‘ün eğitim maliyetinin yalnızca 5.5 milyon dolar olduğunu, bu rakamın OpenAI’nin GPT-4 gibi modellerin geliştirme maliyetlerinin çok altında olduğunu belirtiyor.
Ancak, modelin politik görüşleri biraz… sınırlı. Örneğin, Tiananmen Meydanı hakkında sorular sorduğunuzda yanıt vermiyor. DeepSeek, bir Çin şirketi olarak, modellerinin yanıtlarının “temel sosyalist değerleri” yansıtmasını sağlamak için Çin‘in internet düzenleyicileri tarafından denetleniyor. Pek çok Çin yapay zeka sistemi, Xi Jinping rejimi hakkında spekülasyon gibi düzenleyicilerin tepkisini çekebilecek konularda yanıt vermeyi reddediyor.
DeepSeek, Kasım ayının sonunda OpenAI’nin “akıl yürütme” modeli o1‘e yanıt olarak DeepSeek-R1‘i piyasaya sürmüştü. DeepSeek, High-Flyer Capital Management tarafından desteklenen, yapay zekayı ticaret kararlarına dahil etmek için kullanan bir Çin kuantitatif hedge fonu. High-Flyer, model eğitimi için kendi sunucu kümelerini inşa ediyor; en son kümelerinden biri 10.000 Nvidia A100 GPU ile donatılmış ve yaklaşık 1 milyar yen (~138 milyon dolar) maliyetinde. Liang Wenfeng tarafından kurulan High-Flyer, “süper zeki” yapay zekaya ulaşmayı hedefliyor.
Bir röportajda Wenfeng, kapalı kaynaklı yapay zekanın OpenAI gibi bir “geçici” engel olduğunu belirterek, “Bu, diğerlerinin yetişmesini engellemedi” diye yorumladı. Bu açıklama, DeepSeek V3‘ün piyasaya sürülmesiyle birlikte, açık kaynaklı ve erişilebilir yapay zeka modellerinin geleceği hakkında umut vaat ediyor.