EleutherAI, организация, занимающаяся исследованиями в области искусственного интеллекта, выпустила, по ее утверждению, одну из крупнейших коллекций лицензионных и открытых текстов для обучения моделей искусственного интеллекта.
На создание набора данных под названием Common Pile v0.1 ушло около двух лет. Работа велась в сотрудничестве с стартапами в области искусственного интеллекта Poolside, Hugging Face и другими, а также с несколькими академическими учреждениями. Common Pile v0.1, размер которого составляет 8 терабайт, был использован для обучения двух новых моделей искусственного интеллекта от EleutherAI, Comma v0.1-1T и Comma v0.1-2T, которые, по утверждению EleutherAI, работают наравне с моделями, разработанными с использованием нелицензионных данных, защищенных авторским правом.
Компании, занимающиеся искусственным интеллектом, в том числе OpenAI, вовлечены в судебные разбирательства по поводу своих методов обучения ИИ, которые основаны на сборе данных из Интернета, включая материалы, защищенные авторским правом, такие как книги и научные журналы, для создания наборов данных для обучения моделей.
Хотя некоторые компании, занимающиеся искусственным интеллектом, имеют лицензионные соглашения с определенными поставщиками контента, большинство из них утверждают, что американская правовая доктрина добросовестного использования защищает их от ответственности в случаях, когда они обучали модели на материалах, защищенных авторским правом, без разрешения.
EleutherAI утверждает, что эти судебные разбирательства «резко снизили» прозрачность компаний, занимающихся искусственным интеллектом, что, по мнению организации, нанесло ущерб более широкой области исследований в области искусственного интеллекта, поскольку стало сложнее понять, как работают модели и каковы их недостатки.
«Судебные иски по авторскому праву не изменили существенным образом практику получения данных для обучения [моделей], но они резко снизили прозрачность деятельности компаний», — написала Стелла Бидерман, исполнительный директор EleutherAI, в блоге Hugging Face в пятницу утром. «Исследователи из некоторых компаний, с которыми мы разговаривали, также конкретно указали судебные иски как причину, по которой они не могут публиковать результаты своих исследований в областях, где данные играют важную роль».
Common Pile v0.1, который можно загрузить с платформы разработчиков ИИ Hugging Face и GitHub, был создан в консультации с юридическими экспертами и основан на источниках, включая 300 000 книг из общественного достояния, оцифрованных Библиотекой Конгресса и Интернет-архивом. EleutherAI также использовала Whisper, модель преобразования речи в текст с открытым исходным кодом от OpenAI, для транскрибирования аудиоконтента.
EleutherAI утверждает, что Comma v0.1-1T и Comma v0.1-2T являются доказательством того, что Common Pile v0.1 был тщательно отобран, чтобы разработчики могли создавать модели, конкурентоспособные с проприетарными альтернативами. По данным EleutherAI, обе модели, размер которых составляет 7 миллиардов параметров и которые были обучены только на небольшой части Common Pile v0.1, соперничают с такими моделями, как первая модель Llama AI от Meta, по тестам на кодирование, понимание изображений и математику.
Параметры, иногда называемые весами, являются внутренними компонентами модели ИИ, которые определяют ее поведение и ответы.
«В целом, мы считаем, что распространенное мнение о том, что нелицензионный текст влияет на производительность, необоснованно», — написала Бидерман в своем посте. «По мере роста объема доступных данных с открытой лицензией и находящихся в общественном достоянии, мы можем ожидать улучшения качества моделей, обученных на контенте с открытой лицензией».
Common Pile v0.1, по-видимому, является отчасти попыткой исправить исторические ошибки EleutherAI. Несколько лет назад компания выпустила The Pile, открытую коллекцию учебных текстов, которая включает материалы, защищенные авторским правом. Компании, занимающиеся искусственным интеллектом, подверглись критике — и юридическому давлению — за использование The Pile для обучения моделей.
EleutherAI обязуется в будущем чаще выпускать открытые наборы данных в сотрудничестве со своими партнерами в области исследований и инфраструктуры.
Оригинал
Уникальность