İki milyon Hollanda haberi AI veritabanından kaldırıldı

Sorun, sayısız web sitesinin kopyalarını oluşturan, kâr amacı gütmeyen bir Amerikan kuruluşunun sözde kazıyıcısı olan Common Crawl'dur. Bu kopyalar, yapay zeka modellerini eğitmek de dahil olmak üzere herkesin kullanımına açıktır.
Common Crawl şu anda 2,6 milyar web sayfası içeriyor. ChatGPT, Claude ve Deepseek dahil olmak üzere neredeyse tüm büyük yapay zeka modelleri bu koleksiyonu kullanıyor.
Taranan web siteleri arasında küçük web sitelerinden büyük haber platformlarına kadar on binlerce Hollanda sayfası da yer alıyor. Brein, veritabanında Hollanda haber siteleri ve dijital gazeteler de dahil olmak üzere izinsiz kopyalanmış makalelerin bulunduğunu tespit etti.
Haber siteleri, dil modelleri ve yapay zeka sohbet robotları için hayati bir bilgi kaynağıdır. Bu durum, yapay zekanın ziyaretçi sayısını azaltarak haber sitelerinin gelirini düşürmesine yol açabileceği için aynı siteler için bir tehdit oluşturmaktadır.
Haber şirketlerinin meslek birliği olan NDP Nieuwsmedia, yapay zeka şirketlerinin bu tür veri toplayıcıları kullanarak "gazetecilerin çalışmalarından parazit gibi yararlandığını" öne sürüyor.
Brein direktörü Bastiaan van Ramshorst, RTL Z'ye yaptığı açıklamada, "Yazarların ve yayıncıların metinlerinin izinsiz kullanılması onlar için çok zararlı," dedi. "Bu nedenle, birkaç yayıncı adına bu makalelerin yayından kaldırılmasını talep ettik."
Van Ramshorst'a göre, Common Crawl talebe hızlı bir şekilde yanıt verdi, ancak tüm makalelerin çevrimdışı olması biraz zaman alacak. "Bunun nedeni, çok büyük bir veritabanı olması. Bu da, içinde tam olarak hangi makalelerin bulunduğunu belirlemeyi zorlaştırıyordu."
Makalelerin artık bu veritabanında olmaması, yapay zekâ modellerinde hiç görünmeyecekleri anlamına gelmiyor. Mevcut modeller makaleleri zaten işledi ve bu makaleler modellerden kaybolmayacak. Dahası, yapay zekâ şirketleri de kendi veri toplayıcılarını geliştiriyor, ancak bunların telif hakkıyla korunan veriler içerip içermediği henüz belli değil.
"Böyle bir model şeffaf değilse, altında yatan verileri belirlemek çok zordur," diyor Van Ramshorst. "Bunu araştırıyoruz ama oldukça zaman alıcı."
Küçük bir umut ışığı: Gelecek yıl Avrupa'da yeni bir yasa olan Yapay Zeka Yasası yürürlüğe girecek ve bu yasa, yapay zeka şirketlerinin kaynakları konusunda daha şeffaf olmasını gerektirecek.
Haber bültenleri ve diğer metinlerin yanı sıra, müzik de yapay zekayı eğitmek için kullanılıyor. Bu video, The Velvet Sundown'ın henüz var olmamasına rağmen milyonlarca dinlenmeye nasıl ulaştığını gösteriyor:
RTL Nieuws




