Halka açık bir bulut hizmet sağlayıcısı olan Cloudflare, platformunda barındırılan web sitelerini veri kazıma amacıyla tarayan botları engellemek için yeni, ücretsiz bir araç başlattı.
Bazı AI satıcıları, örneğin Google, OpenAI ve Apple, site sahiplerinin botlarını veri kazıma ve model eğitimi için engellemesine olanak tanıyor. Bu, sitelerinin robots.txt dosyasını düzenleyerek yapılabiliyor. Ancak, Cloudflare’ın botlarla mücadele aracını duyurduğu gönderide belirttiği gibi, tüm AI kazıyıcılar bu kurallara uymuyor.
Cloudflare, resmi blogunda şunları yazdı: “Müşteriler AI botlarının web sitelerini ziyaret etmesini istemiyor, özellikle de bunu dürüst olmayan bir şekilde yapanların.” Şirket, bazı AI firmalarının içeriğe erişim kurallarını aşmak için kuralları atlatma niyetinde olduklarından endişe duyduklarını belirtiyor. Bu nedenle, Cloudflare, AI bot ve tarayıcı trafiğini analiz ederek otomatik bot algılama modellerini ince ayar yaptı. Bu modeller, AI botlarının bir web tarayıcısı kullanan birinin görünümünü ve davranışını taklit ederek tespit edilmekten kaçınmaya çalışıp çalışmadığını da dikkate alıyor.
Cloudflare, “Kötü niyetli aktörler web sitelerini ölçekli olarak taramaya çalıştığında, genellikle parmak izi bırakabildikleri araçlar ve çerçeveler kullanırlar,” dedi. Bu sinyallere dayanarak, modellerimiz “kaçıngan AI botlarının trafiğini bot olarak işaretlemekte” başarılıdır. Cloudflare, şüpheli AI botlarını ve tarayıcılarını rapor etmek için bir form oluşturdu ve zamanla AI botlarını manuel olarak kara listeye almaya devam edeceğini belirtti.
Generative AI patlaması model eğitimi verisine olan talebi artırdıkça AI botlarının sorunu daha da belirginleşti. Pek çok site, AI satıcılarının içeriklerini eğitmek için kullanmasından haberdar olmadan ya da tazminat almadan modellerini engellemeyi tercih ediyor. Bir araştırmaya göre, webdeki en üst 1.000 sitenin %26’sı OpenAI‘nin botunu engelledi; başka bir araştırma ise 600’den fazla haber yayıncısının bu botu engellediğini ortaya koydu.
Engelleme tam bir koruma sağlamıyor. Daha önce değinildiği gibi, bazı satıcılar rekabet avantajı elde etmek için standart bot dışlama kurallarını ihlal ediyor gibi görünüyor. AI arama motoru Perplexity yakın zamanda web sitelerinden içerik kazımak için meşru ziyaretçileri taklit etmekle suçlandı ve OpenAI ve Anthropic bazen robots.txt kurallarını görmezden gelmekle suçlanıyor.
Geçen ay yayıncılara yazdığı bir mektupta, içerik lisanslama girişimi TollBit, birçok AI ajanın robots.txt standardını görmezden geldiğini belirtti.
Cloudflare gibi araçlar yardımcı olabilir, ancak yalnızca gizli AI botlarını tespit etmede doğru olduklarını kanıtlarlarsa. Ve bu araçlar, Google‘ın AI Overviews gibi AI araçlarının yönlendirme trafiğinden feragat etme riski taşıyan yayıncıların daha çözülmesi zor sorunlarını çözmeyecek. Google‘ın AI Overviews aracı, belirli AI tarayıcılarını engelleyen siteleri dahil etmiyor.
Bu yeni araç, Cloudflare’ın botlarla mücadele konusundaki çabalarını artırırken, sitelerin veri kazıma amacıyla taranmasını önleme konusunda nasıl bir etki yaratacağını zaman gösterecek.