Социальная сеть Bluesky недавно опубликовала на GitHub предложение с описанием новых возможностей, которые она могла бы предоставить пользователям, чтобы они могли указать, хотят ли они, чтобы их посты и данные использовались для таких целей, как обучение генеративного ИИ и публичное архивирование.
Генеральный директор Джей Грабер обсуждал это предложение ранее на этой неделе, выступая на South by Southwest, но в пятницу вечером оно привлекло к себе новое внимание, после того как о нем написали на сайте Bluesky. Некоторые пользователи с тревогой отреагировали на планы компании, которые они расценили как отказ от прежних заявлений Bluesky о том, что она не будет продавать данные пользователей рекламодателям и не будет обучать искусственный интеллект на сообщениях пользователей.
«О, черт возьми, нет!» - написал пользователь Sketchette. «Красота этой платформы заключалась в том, чтобы НЕ делиться информацией. Особенно с искусственным интеллектом. Не уступайте теперь».
Грабер ответила, что компании, занимающиеся генеративным ИИ, «уже собирают публичные данные по всему интернету», в том числе и из Bluesky, поскольку «все на Bluesky публично, как публичен веб-сайт». Поэтому, по ее словам, Bluesky пытается создать «новый стандарт» для регулирования такого соскабливания, подобный файлу robots.txt, который используют веб-сайты для сообщения своих разрешений веб-гусеницам.
Дебаты об обучении искусственного интеллекта и авторском праве привлекли внимание к файлу robots.txt, в том числе из-за того, что он не имеет юридической силы. Bluesky предлагает стандарт, который будет иметь схожий «механизм и ожидания», предоставляя «машиночитаемый формат, соблюдение которого ожидается от хороших игроков, и который имеет этический вес, но не имеет юридической силы».
Согласно предложению, пользователи приложения Bluesky или других приложений, использующих базовый протокол ATProtocol, смогут зайти в свои настройки и разрешить или запретить использование своих данных Bluesky в четырех категориях: генеративный ИИ, соединение протоколов (т. е. соединение различных социальных экосистем), массовые наборы данных и веб-архивирование (например, Wayback Machine интернет-архива).
Если пользователь указывает, что не хочет, чтобы его данные использовались для обучения генеративного ИИ, в предложении говорится: «Компании и исследовательские группы, создающие наборы для обучения ИИ, должны уважать это намерение, когда видят его, либо при соскабливании веб-сайтов, либо при массовой передаче данных с помощью самого протокола».
Молли Уайт, автор рассылки Citation Needed и блога Web3 is Going Just Great, назвала это предложение «хорошим» и сказала, что «странно видеть людей, гневно осуждающих BlueSky за это», поскольку оно не столько «приветствует ИИ-скрепинг», сколько «пытается добавить сигнал согласия, чтобы пользователи могли сообщить о предпочтениях в отношении уже происходящего скрейпинга».
«Я думаю, что слабость этого и аналогичного предложения [Creative Commons] о «сигналах предпочтения» заключается в том, что они полагаются на то, что скреперы будут уважать эти сигналы из желания быть хорошими актерами», - продолжил Уайт. «Мы уже видели, как некоторые из этих компаний проскакивали мимо robots.txt или пиратских материалов для соскабливания».
Оригинал
Уникальность
Реклама: ⚡ More-Ex: инвойсы, наличка, перестановки — просто напишите нам!