По данным интернет-провайдера Cloudflare, стартап Perplexity, занимающийся искусственным интеллектом, сканирует и копирует контент с веб-сайтов, которые явно указали, что не хотят, чтобы их контент копировался.
В понедельник Cloudflare опубликовал исследование, в котором говорится, что AI-стартап игнорирует блокировки и скрывает свою деятельность по сканированию и сбору данных. Гигант сетевой инфраструктуры обвинил Perplexity в сокрытии своей идентичности при попытке сбора данных с веб-страниц «в попытке обойти настройки веб-сайта», написали исследователи Cloudflare.
Продукты искусственного интеллекта, такие как те, которые предлагает Perplexity, полагаются на сбор больших объемов данных из Интернета, и стартапы в области искусственного интеллекта уже давно многократно собирают текст, изображения и видео из Интернета без разрешения, чтобы их продукты работали. В последнее время веб-сайты пытаются бороться с этим, используя веб-стандартный файл Robots.txt, который сообщает поисковым системам и компаниям, занимающимся искусственным интеллектом, какие страницы могут быть проиндексированы, а какие нет. Эти усилия пока дают смешанные результаты.
Perplexity, по-видимому, добровольно обходит эти блокировки, изменяя «пользовательский агент» своих ботов, то есть сигнал, который идентифицирует посетителя веб-сайта по его устройству и типу версии, а также изменяя свои автономные системные сети (ASN), которые, по сути, являются номерами, идентифицирующими крупные сети в Интернете, согласно Cloudflare.
«Эта активность наблюдалась на десятках тысяч доменов и в миллионах запросов в день. Мы смогли идентифицировать этот краулер с помощью комбинации машинного обучения и сетевых сигналов», — говорится в посте Cloudflare.
Пресс-секретарь Perplexity Джесси Дуайер отверг пост Cloudflare в блоге как «рекламный трюк», добавив в электронном письме TechCrunch, что скриншоты в посте «показывают, что доступ к контенту не был получен». В последующем электронном письме Дуайер заявил, что бот, упомянутый в блоге Cloudflare, «даже не принадлежит нам».
Cloudflare сообщила, что впервые заметила такое поведение после того, как ее клиенты пожаловались, что Perplexity сканирует и копирует их сайты, даже после того, как они добавили правила в свой файл Robots и специально заблокировали известных ботов Perplexity. Cloudflare сообщила, что затем провела тесты, чтобы проверить и подтвердить, что Perplexity обходит эти блокировки.
«Мы заметили, что Perplexity использует не только заявленный пользовательский агент, но и общий браузер, предназначенный для имитации Google Chrome на macOS, когда их заявленный сканер был заблокирован», — сообщает Cloudflare.
Компания также заявила, что удалила ботов Perplexity из своего списка проверенных и добавила новые методы для их блокировки.
Cloudflare недавно заняла публичную позицию против AI-краулеров.
В прошлом месяце Cloudflare объявила о запуске торговой площадки, позволяющей владельцам веб-сайтов и издателям взимать плату с AI-скреперов, которые посещают их сайты. Генеральный директор Cloudflare Мэтью Принс тогда забил тревогу, заявив, что AI разрушает бизнес-модель интернета, особенно издателей. В прошлом году Cloudflare также запустила бесплатный инструмент для предотвращения скрепинга веб-сайтов ботами для обучения AI.
Это не первый случай, когда Perplexity обвиняют в несанкционированном скрейпинге.
В прошлом году новостные агентства, такие как Wired, обвинили Perplexity в плагиате их контента. Несколько недель спустя генеральный директор Perplexity Аравинд Сринивас не смог сразу ответить, когда его попросили дать определение плагиата во время интервью с Девином Колдевеем из TechCrunch на конференции Disrupt 2024.
Оригинал
Уникальность