AI боты создают проблемы для Викимедиа, трафик вырос на 50%

Во вторник Фонд Викимедиа объявил о том, что беспрерывный сбор данных искусственным интеллектом создает проблемы для серверов Википедии. Автоматизированные боты, ищущие данные для обучения моделей искусственного интеллекта, активно загружают терабайты данных, увеличивая использование пропускной способности фонда для загрузки мультимедийного контента на 50% с января 2024 года. Эта ситуация знакома всему сообществу свободного и открытого программного обеспечения (FOSS), как мы уже упоминали ранее.

Угроза для Википедии и Викимедиа Коммонс

Фонд не только хостит Википедию, но и платформы, такие как Викимедиа Коммонс, где представлено 144 миллиона медиафайлов с открытой лицензией. Десятилетиями этот контент использовался во всем, начиная от результатов поиска и заканчивая школьными проектами. Однако начиная с начала 2024 года, компании по искусственному интеллекту значительно увеличили автоматизированный сбор данных путем прямого сканирования, использования API и массовой загрузки, чтобы покормить свои алгоритмы искусственного интеллекта. Этот экспоненциальный рост нечеловеческого трафика привел к значительным техническим и финансовым затратам, часто не сопровождаемым учетом, который помогает поддерживать волонтерскую экосистему Викимедиа.

Реальные последствия

Фонд утверждает, что когда в декабре 2024 года умер бывший президент США Джимми Картер, его страница на Википедии ожидаемо привлекла миллионы просмотров. Но настоящие проблемы возникли, когда пользователи одновременно смотрели 1,5-часовое видео дебатов 1980 года на Викимедиа Коммонс. Резкий скачок привел к удвоению обычного сетевого трафика Викимедиа, временно выведя несколько интернет-соединений на пределы их возможностей. Инженеры Викимедиа быстро перенаправили трафик для снижения нагрузки, но этот случай выявил более глубокую проблему: основная пропускная способность уже была практически исчерпана ботами, собирающими медиафайлы в огромных масштабах.

Результаты

Такая активность ботов создает реальные проблемы для Викимедиа и Википедии. Увеличение трафика приводит к высоким техническим и финансовым затратам, а также может нарушить доступ к контенту для обычных пользователей. Решение этой проблемы требует более эффективных методов фильтрации и контроля активности ботов, чтобы обеспечить бесперебойное функционирование Викимедиа и сохранить доступность свободной информации для всех пользователей.