Разозленные наглостью ИИ-компаний сайты тайком внедряют новое оружие против поисковых роботов

Сайты в Сети начали внедрять «оружие против искусственного интеллекта», призванное помешать автоматическому сбору данных, на основе которых крупные ИИ-компании, такие как OpenAI и Google, обучают модели вопреки воле владельцев веб-ресурсов.

По сообщению Ars Technica, одним из первых образцов такого «оружия» является Nepenthis – по сути, вредоносное ПО за авторством разработчика, который предпочитает сохранять анонимность. Издание называет его Аароном (Aaron).

Инструмент, в котором используется техника тарпиттинга (расстановки тарпитов, или ловушек), получил свое название в честь непентеса – плотоядного растения, напоминающего по форме кувшин, которое приманивает насекомых и питается ими. Он нацелен на веб-краулеры (поисковые роботы) ИИ-компаний, не соблюдающие стандарты исключений для роботов.

В корне любого сайта веб-мастер может разместить специальный файл “robots. txt”, с помощью которого реализуется запрет на индексацию отдельных страниц веб-ресурса поисковыми роботами. Некоторые веб-краулеры, принадлежащие компаниям, работающим над созданием моделей машинного обучения, игнорируют содержимое этого файла и стремятся извлечь всю информацию, размещенную на сайте, создавая дополнительную нагрузку на хостинговую инфраструктуру.

Вредоносная программа устанавливается на сервер, обеспечивающий работу сайта, нуждающегося в защите. В процессе своего работы она создает ловушку, которая представляет собой бесконечную последовательность сгенерированных случайным образом статических веб-страниц, каждая из которых содержит множества ссылок, ведущих обратно в ловушку. В связи с этим, краулер, пытающийся извлечь данные с такого ресурса, попадает в «бесконечный лабиринт» страниц, не содержащий ценной информации, который довольно сложно покинуть. По мнению автора, в такой ловушке некоторые краулеры могут проводить по несколько месяцев.

Более того, Nepenthes, обнаружив краулер, добавляет дополнительную задержку перед выдачей ему содержимого очередной страницы, тем самым замедляя его работу. Наконец, оператору Nepenthes доступна функция «скармливания» роботу случайных фраз, сгенерированных при помощи цепей Марков. Разработчики программы считают, что это позволит отравить набор данных, используемый для обучения модели, и значительно ухудшить качество выдаваемых ей результатов при последующем инференсе.

Тарпиты первоначально применялись для борьбы со спамерами, вынуждая их расходовать дополнительные время и ресурсы. Аарон взял на вооружение эту технику и превратил ее в оружие против ИИ. По мнению разработчика, на данный момент Nepenthes способен противостоять всем крупным веб-краулерам за исключением принадлежащего OpenAI, разработчика большой языковой модели GPT, на базе которой построен популярный чат-бот ChatGPT.

Пока не ясен масштаб ущерба, который потенциально может нанести массовое внедрение инструментов вроде Nepenthes. Ведущие ИИ-компании и ранее сталкивались с попытками отравления наборов данных, используемых для обучения моделей, и уже успели выработать набор определенных контрмер.

OpenAI, к примеру, проявляет особую бдительность в этом отношении, выявляя попытки целенаправленного отравления датасетов на самых ранних этапах, отмечает Ars Technica. В компании изданию заявили, что осведомлены о попытках противостояния веб-краулерам, собирающих данные для обучения моделей, и готовы их пресекать, при этом «соблюдая правила robots. txt и поддерживая соответствие стандартным практикам в интернете».

Разработчик Nepenthes ставит своей целью нанесение ИИ-компаниям максимального вреда, способствуя повышению их расходов на обучение моделей и затягиванию процесса в целом. По предположению Аарона, представители ИИ-отрасли, продвигающие «никому не нужные» технологии, виноваты в деградации Всемирной паутины как общедоступного источника информации. Такой технологией, в его представлении, являются, например, чат-боты, лишающие работы сотрудников служб поддержки клиентов по всему миру, или предоставляющие неточные результаты поиска в Сети.

Как отмечает Ars Technica, инструмент появился в середине января 2025 г. и быстро обрел популярность масштаба, на который Аарон и не рассчитывал. Конкретные числа издание не приводит.

Оценить количество внедрений Nepenthes представляется затруднительным, поскольку его пользователям рекомендуется на афишировать факт наличия инструмента на сервере – так проще «наказывать» ИИ-краулеры, игнорирующие инструкции, прописанные в “robot. txt”. Данные, собранные Аароном, свидетельствуют о том, что число пользователей Nepenthes растет, при этом подавляющее их большинство с разработчиком не контактирует.

Андрей Аксенов, IXcellerate: Повышенный интерес к ИИ провоцирует всплеск спроса на ЦОД-услуги

Идеи, заложенные в Nepenthes, находят применение и развитие в инструментах других разработчиков. Так, программист и хакер Гергели Надь (Gergely Nagy), продолжительное время страдавший от того, что практически весь канал связи принадлежащего ему сервера «съедали» поисковые роботы, написал собственную программу под названием Iocaine. Ее внедрение, со слов разработчика, позволило сократить трафик ботов, обращающихся к его сайту, на 94%, и интерес к ней начали проявлять некоторые организации, названия которых не уточняется.

При создании Iocaine Надь сосредоточился на усилении «отравляющих» свойств Nepenthes. В работе Iocaine задействован обратный прокси-сервер, при помощи которого робот, собирающий данные для обучения ИИ и не обращающий внимание на содержимое “robots. txt”, оказывается заперт в «бесконечном лабиринте из [информационного] мусора», который постепенно накапливается в датасете, что ведет к его отравлению.

Пользу от Nepenthes и ему подобных ставят под сомнение посетители Hacker News. Популярно мнение, что большинство ИИ-краулеров способно с легкостью обходить ловушки такого рода. Аарон с ним не согласен и утверждает, что в его распоряжении имеются логи веб-сервера, свидетельствующие о том, что Google, в частности, так этому и не научился.

Как отмечает Ars Technica, многие не спешат внедрять инструменты вроде Nepenthes, поскольку те сами по себе потребляют ресурсы сервера и расходуют трафик, что в некоторых случаях может означать экономическую нецелесообразность применения нового оружия борьбы с ИИ-краулерами.

По мнению Аарона, для работы Nepenthes требуются ресурсы, сопоставимые с необходимыми для запуска дешевой виртуальной машины на базе Raspberry Pi 5. Надь утверждает, что Iocaine потребляет ровно столько же, сколько и сам сайт, который программа защищает.

Дмитрий Степанов

https://www.cnews.ru/news/top/2025-01-29_razozlennye_naglostyu_ii-kompanij

Источник: www.cnews.ru/news/top/2025-01-29_razozlennye_naglostyu_ii-kompanij