Многие стороны обвиняли OpenAI в том, что ее ИИ обучается на контенте, защищенном авторским правом, без разрешения. Теперь в новом документе, подготовленном организацией по защите ИИ, содержится серьезное обвинение в том, что компания все чаще полагается на непубличные книги, на которые у нее не было лицензии, для обучения более сложных моделей ИИ.
Модели ИИ - это, по сути, сложные механизмы прогнозирования. Обученные на большом количестве данных - книг, фильмов, телепередач и так далее - они изучают закономерности и новые способы экстраполяции на основе простой подсказки. Когда модель «пишет» эссе о греческой трагедии или «рисует» образы в стиле Гибли, она просто использует свои обширные знания для приблизительного прогнозирования. Она не приходит к чему-то новому.
Хотя ряд лабораторий ИИ, в том числе OpenAI, начали использовать данные, созданные ИИ, для обучения ИИ по мере того, как они исчерпывают реальные источники (в основном публичный интернет), лишь немногие полностью отказались от реальных данных. Вероятно, это связано с тем, что обучение на чисто синтетических данных сопряжено с определенными рисками, например, ухудшением работы модели.
В новой работе, подготовленной некоммерческой организацией AI Disclosures Project, соучредителями которой в 2024 году стали медиамагнат Тим О'Рейли и экономист Илан Штраус, делается вывод, что OpenAI, скорее всего, обучала свою модель GPT-4o на платных книгах от O'Reilly Media. (О'Рейли является генеральным директором O'Reilly Media).
В ChatGPT модель GPT-4o используется по умолчанию. У O'Reilly нет лицензионного соглашения с OpenAI, говорится в статье.
«GPT-4o, более новая и функциональная модель OpenAI, демонстрирует сильное распознавание платного книжного контента O'Reilly... по сравнению с более ранней моделью OpenAI GPT-3.5 Turbo», - пишут соавторы работы. «Напротив, GPT-3.5 Turbo демонстрирует большее относительное распознавание общедоступных образцов книг O'Reilly».
В работе использовался метод под названием DE-COP, впервые представленный в академическом исследовании в 2024 году и предназначенный для обнаружения защищенного авторским правом контента в обучающих данных языковых моделей. Этот метод, также известный как «атака на установление авторства», проверяет, может ли модель достоверно отличить тексты, написанные человеком, от перефразированных, сгенерированных ИИ версий того же текста. Если это удается, то это говорит о том, что модель может иметь предварительные знания о тексте, полученные из обучающих данных.
Оригинал
Уникальность
Последнее редактирование: