ByteDance bünyesindeki Doubao Büyük Model Ekibi, Pekin Ulaştırma Üniversitesi ve Çin Bilim ve Teknoloji Üniversitesi ile ortaklaşa geliştirdikleri VideoWorld adlı video üretim modelini kamuoyuna tanıttı. VideoWorld, video verilerini işleyerek makinelere görsel bilgiyle dünya anlayışı kazandıran bir sistem sunuyor. Dil modellerine ihtiyaç duymadan işleyen bu yeni teknoloji, makine öğreniminde dikkat çeken bir yaklaşıma öncülük ediyor.
Modelin temelinde, çocukların dili öğrenmeden çevrelerini kavrayabilme yeteneğinden esinlenildi. Bu yaklaşımı 9 yıl önceki TED konuşmasında gündeme getiren Li Fei-Fei’nin vurguladığı gibi, VideoWorld de yalnızca görsel veriler üzerinden akıl yürütme, planlama ve karar verme gibi karmaşık süreçleri yönetebiliyor. Doubao’nun geliştirdiği bu model, sadece 300 milyon parametreyle etkili bir performans gösteriyor. Bu, sektörde düşük parametrelerle yüksek başarı elde edebilen sistemler arasında dikkat çeken bir özellik olarak değerlendiriliyor.
VideoWorld, görsel verilerle anlama ve akıl yürütme işlevlerini tek çatı altında birleştirerek dil modellerini devre dışı bırakıyor. Video kareleri arasındaki değişim bilgilerini sıkıştırarak daha etkili öğrenme sağlayan bu yapı, modelin bilgi öğrenme hızını ve kapasitesini artırıyor.
Ayrıca, VideoWorld genel amaçlı bir video üretim modeli olarak tasarlandığı için, görsel verilerden bilgi çıkarma ve bu bilgiyi farklı görevlerde kullanma potansiyeli taşıyor. Doubao Büyük Model Ekibi, görsel tabanlı sistemlerin yapay zekanın geleceğinde önemli bir rol üstlenebileceğini öngörüyor.