Как и практически каждая технологическая компания, Adobe за последние несколько лет активно внедряла ИИ. С 2023 года компания запустила ряд различных сервисов на базе искусственного интеллекта, включая Firefly — пакет для генерации медиа. Однако теперь полное принятие этой технологии может обернуться проблемами: новый иск утверждает, что Adobe использовала пиратские книги для обучения одной из своих моделей ИИ.
Коллективный иск, поданный от имени писательницы из Орегона Элизабет Лайон, утверждает, что Adobe использовала пиратские версии множества книг — включая её собственные — для обучения программы SlimLM.
Adobe описывает SlimLM как серию небольших языковых моделей, «оптимизированных для задач помощи с документами на мобильных устройствах». Компания заявляет, что SlimLM была предварительно обучена на SlimPajama‑627B — «дедуплицированном, многокорпусном, открытом датасете», выпущенном Cerebras в июне 2023 года. Лайон, автор нескольких пособий по написанию научно‑популярных текстов, утверждает, что её работы оказались в наборе данных, использованном Adobe для предобучения.
Иск Лайон, впервые освещённый Reuters, утверждает, что её тексты были включены в обработанный поднабор изменённого датасета, ставшего основой программы Adobe: «Набор SlimPajama был создан путём копирования и модификации датасета RedPajama (включая копирование Books3),» говорится в иске. «Таким образом, поскольку SlimPajama является производной копией RedPajama, он содержит датасет Books3, включая защищённые авторским правом произведения истца и членов класса».
Books3 — огромная коллекция из 191 000 книг, использовавшихся для обучения генеративных систем ИИ, — давно является источником юридических проблем для индустрии. RedPajama также фигурировал в ряде судебных дел. В сентябре был подан иск против Apple, утверждавший, что компания использовала защищённые авторским правом материалы для обучения своей модели Apple Intelligence. В иске упоминался этот датасет и выдвигались обвинения в копировании произведений «без согласия, без указания авторства и без компенсации». В октябре аналогичный иск против Salesforce также утверждал, что компания использовала RedPajama для обучения.
К сожалению для индустрии, такие иски стали довольно распространёнными. Алгоритмы ИИ обучаются на огромных наборах данных, и в некоторых случаях они якобы включают пиратские материалы. В сентябре компания Anthropic согласилась выплатить $1,5 млрд группе авторов, которые подали на неё в суд, обвиняя в использовании пиратских версий их работ для обучения чат‑бота Claude. Этот случай считается потенциальным переломным моментом в продолжающихся судебных спорах о защите авторских прав в данных для обучения ИИ, которых становится всё больше.
Оригинал
Уникальность