Alibaba Group Holding’in bulut bilişim bölümü Alibaba Cloud, yapay zeka alanındaki gelişmelerine bir yenisini daha ekleyerek Animate Anyone 2 modelini tanıttı. Yeni model, yalnızca bir statik görüntü ve bir video referansı kullanarak gerçekçi karakter animasyonları oluşturmayı mümkün hale getiriyor.
Önceki karakter animasyonu yöntemleri genellikle yalnızca hareket sinyallerini kullanırken, Animate Anyone 2, yüksek doğrulukta karakter animasyonu sağlamak için hem hareket hem de çevresel sinyalleri işleyerek yeni klipler üretebiliyor. Alibaba Cloud bünyesindeki büyük dil modeli araştırma ve geliştirme birimi Tongyi Lab tarafından arXiv platformunda yayımlanan teknik bir çalışmaya göre model, kaynak videolardaki çevresel bilgileri çıkararak karakterin orijinal ortamını korumasına ve sahne ile daha uyumlu bir entegrasyon sağlamasına imkan tanıyor.
Çalışmada, “kaynak videolardan çevresel bilgileri çıkararak, animasyonlu karakterin orijinal ortamını korumasına ve karakter-çevre entegrasyonunun kesintisiz olmasına olanak tanıyoruz” ifadelerine yer verildi.
Bu gelişme, Washington yönetiminin Çin’in gelişmiş yarı iletkenler ve diğer teknolojilere erişimine getirdiği kısıtlamalara rağmen, Çinli geliştiricilerin üretken yapay zeka alanında kaydettiği ilerlemeyi gözler önüne seriyor. Büyük dil modelleri (LLM), ChatGPT gibi üretken yapay zeka hizmetlerinin temelini oluşturuyor.
Animate Anyone 2, modelin 2023’ün sonlarında tanıtılan ilk versiyonunun üzerine inşa edildi. İlk model, sabit görüntülerden karakter videoları oluşturma üzerine odaklanıyordu. Ancak yapay zeka alanında OpenAI, geçtiğimiz yılın şubat ayında tanıttığı metinden videoya model Sora ile sektörde büyük bir hareketlenme yarattı. Sora, Aralık ayında yalnızca ChatGPT Plus ve Pro kullanıcılarına açılmıştı.
Çin’de üretken yapay zeka alanındaki rekabet hız kazanırken, ByteDance geçtiğimiz haftalarda OmniHuman-1 adlı çok modlu modelini duyurdu. Bu model, fotoğrafları ve ses kayıtlarını gerçekçi videolara dönüştürebiliyor. Animate Anyone 2 gibi yeni nesil yapay zeka modelleri, Çin’de Sora‘nın erişilebilir olmaması nedeniyle özellikle eğlence ve reklamcılık sektörlerini etkilemeye hazırlanıyor. Model, referans bir görüntü veya videodaki karakterlerin kolaylıkla değiştirilerek yeni klipler oluşturulmasını sağlıyor.
Çalışmada ayrıca Animate Anyone 2’nin karakterler arasındaki etkileşimleri de oluşturabildiği, “hareketlerin tutarlılığı ve çevre ile uyumluluğunu” sağlayabildiği belirtiliyor. Modelin farklı senaryolardaki başarısını ölçmek için internetten toplanan 100.000 karakter videosunu içeren özel bir veri seti kullanıldığı bildiriliyor. Bu veri seti, farklı sahne türlerini, hareket kategorilerini ve insan-nesne etkileşimlerini içeriyor.
Ancak bu tür gelişmiş video üretme araçlarının kullanımının, çevrimiçi sahte videoların yayılma riskini artırabileceği belirtiliyor. Pekin merkezli bir reklam ajansı işleten Liang Haisheng, bu tür araçların hala insan duygularını ve ayrıntılı yüz ifadelerini tam olarak yansıtamadığını ifade etti. Liang, yeni video üretim araçlarının özellikle müşteri projelerinde fikirlerin görselleştirilmesi açısından faydalı olduğunu da ekledi.