• Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 🐑 Моисей водил бесплатно. А мы платим, хотя тоже планируем работать 40 лет! Принимай участие в партнеской программе MMGP
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"
  • 💰 В данном разделе действует акция с оплатой за новые публикации
  • 📌 Внимание! Перед публикацией новостей ознакомьтесь с правилами новостных разделов

Исследователи предлагают OpenAI обучить модели искусственного интеллекта на платных книгах издательства O'Reilly

ОпенАи.jpg

Многие стороны обвиняли OpenAI в том, что ее ИИ обучается на контенте, защищенном авторским правом, без разрешения. Теперь в новом документе, подготовленном организацией по защите ИИ, содержится серьезное обвинение в том, что компания все чаще полагается на непубличные книги, на которые у нее не было лицензии, для обучения более сложных моделей ИИ.

Модели ИИ - это, по сути, сложные механизмы прогнозирования. Обученные на большом количестве данных - книг, фильмов, телепередач и так далее - они изучают закономерности и новые способы экстраполяции на основе простой подсказки. Когда модель «пишет» эссе о греческой трагедии или «рисует» образы в стиле Гибли, она просто использует свои обширные знания для приблизительного прогнозирования. Она не приходит к чему-то новому.

Хотя ряд лабораторий ИИ, в том числе OpenAI, начали использовать данные, созданные ИИ, для обучения ИИ по мере того, как они исчерпывают реальные источники (в основном публичный интернет), лишь немногие полностью отказались от реальных данных. Вероятно, это связано с тем, что обучение на чисто синтетических данных сопряжено с определенными рисками, например, ухудшением работы модели.

В новой работе, подготовленной некоммерческой организацией AI Disclosures Project, соучредителями которой в 2024 году стали медиамагнат Тим О'Рейли и экономист Илан Штраус, делается вывод, что OpenAI, скорее всего, обучала свою модель GPT-4o на платных книгах от O'Reilly Media. (О'Рейли является генеральным директором O'Reilly Media).

В ChatGPT модель GPT-4o используется по умолчанию. У O'Reilly нет лицензионного соглашения с OpenAI, говорится в статье.

«GPT-4o, более новая и функциональная модель OpenAI, демонстрирует сильное распознавание платного книжного контента O'Reilly... по сравнению с более ранней моделью OpenAI GPT-3.5 Turbo», - пишут соавторы работы. «Напротив, GPT-3.5 Turbo демонстрирует большее относительное распознавание общедоступных образцов книг O'Reilly».

В работе использовался метод под названием DE-COP, впервые представленный в академическом исследовании в 2024 году и предназначенный для обнаружения защищенного авторским правом контента в обучающих данных языковых моделей. Этот метод, также известный как «атака на установление авторства», проверяет, может ли модель достоверно отличить тексты, написанные человеком, от перефразированных, сгенерированных ИИ версий того же текста. Если это удается, то это говорит о том, что модель может иметь предварительные знания о тексте, полученные из обучающих данных.

Оригинал

Уникальность
 
Последнее редактирование:

Похожие темы

Сверху Снизу