Apple и NVIDIA обучали AI-модели на стенограммах YouTube без разрешений - Proof News

snap7654.png


Некоторые из крупнейших технологических компаний мира тренировали свои модели искусственного интеллекта (AI) на транскриптах из тысяч видео YouTube без разрешения. Об этом заявили исследователи Proof News. В нем говорится, что субтитры из 173 536 видеороликов YouTube, собранные из более 48 000 каналов, использовались такими гигантами Кремниевой долины, как Apple, NVIDIA и Anthropic.

Компании сделали это, несмотря на правила YouTube, которые запрещают собирать материалы с платформы без разрешения. Они использовали субтитры из учебных каналов, таких как Khan Academy, MIT и Harvard, а также крупные новостные издания, такие как The New York Times, BBC и ABC News. В список попали развлекательные шоу и YouTube-звезды.

Некоторые материалы, которые использовались для обучения искусственному интеллекту, также пропагандировали такие заговоры, как теория плоской Земли.
Владельцы многих каналов, чьи видеоролики использовались для обучения ИИ, не знали об этом. Некоторые из них обеспокоены, что ИИ когда-нибудь сможет генерировать контент, похожий на их, или даже создавать полные копии.

Организация EleutherAI, создавшая набор данных YouTube Subtitles, не ответила на запросы по выводам Proof, включая обвинения в использовании видео без разрешения. Набор данных, являющихся частью их коллекции под названием The Pile, содержит тексты субтитров не только YouTube, а также материалы из Европарламента, Википедии и электронных писем сотрудников Enron, обнародованных в рамках федерального расследования.

Большинство этих данных открыты для кого-либо в интернете, имеющих достаточно места и вычислительных мощностей для доступа к ним.

Основатель EleutherAI, Сид Блэк, написал на GitHub, что он создал инструмент для загрузки субтитров из YouTube с помощью скрипта. Этот скрипт загружает субтитры из API YouTube так же, как браузер пользователя YouTube загружает их при просмотре видео. Блэк использовал почти 500 поисковых запросов, чтобы найти видео на разные темы: от науки до политики и кулинарии.

Хотя правила использования YouTube запрещают доступ к его видео с помощью «автоматизированных средств», более 2000 пользователей GitHub добавили этот код в закладки или одобрили его.

В настоящее время компании, занимающиеся разработкой ИИ, не предоставляют прозрачную информацию о данных, используемых для обучения их моделям. В начале этого месяца художники и фотографы критиковали Apple за то, что она не раскрывает источники обучающих данных для Apple Intelligence, собственной разработки компании в области генеративного ИИ, которая в этом году появится на миллионах устройств Apple.

YouTube, крупнейшее в мире хранилище видео, является золотым прииском не только транскрипций, но и аудио, видео и изображений, что делает его привлекательным инструментом для обучения ИИ-моделям. Руководство OpenAI неоднократно отказывалось публично отвечать на вопрос о том, использовали ли они видео YouTube для обучения своему продукту искусственного интеллекта Sora, создающего видео по текстовым подсказкам.

по материалам
уникальность
 
Сверху Снизу