MLCommons, некоммерческая рабочая группа по безопасности ИИ, объединилась с платформой для разработки ИИ Hugging Face, чтобы выпустить одну из крупнейших в мире коллекций голосовых записей, находящихся в открытом доступе, для исследований ИИ. Набор данных под названием Unsupervised People's Speech содержит более миллиона часов аудиозаписей, охватывающих как минимум 89 языков.
MLCommons утверждает, что на ее создание ее побудило желание поддержать исследования и разработки в «различных областях речевых технологий». «Поддержка более широких исследований в области обработки естественного языка для языков, отличных от английского, помогает донести коммуникационные технологии до большего числа людей во всем мире», - написала организация в блоге в четверг.
«Мы предполагаем, что исследовательское сообщество продолжит создавать и развивать несколько направлений, особенно в области совершенствования моделей речи для языков с ограниченными ресурсами, улучшения распознавания речи на различных акцентах и диалектах, а также новых приложений в синтезе речи». Это, конечно, достойная восхищения цель. Но такие наборы данных ИИ, как Unsupervised People's Speech, могут нести в себе риски для исследователей, которые решили их использовать. Одним из таких рисков является необъективность данных.
Записи в Unsupervised People's Speech были получены от Archive.org, некоммерческой организации, возможно, наиболее известной благодаря инструменту веб-архивации Wayback Machine. Поскольку многие участники Archive.org являются англоговорящими - и американцами - почти все записи в Unsupervised People's Speech написаны на английском с американским акцентом, как сказано в readme на официальной странице проекта.
Это означает, что без тщательной фильтрации системы ИИ, такие как распознаватели речи и синтезаторы голоса, обученные на Unsupervised People's Speech, могут проявить некоторые из тех же предрассудков. Например, они могут с трудом расшифровывать английский язык, на котором говорит человек, не являющийся носителем языка, или с трудом генерировать синтетические голоса на других языках, кроме английского. Неподконтрольная речь людей также может содержать записи людей, не знающих, что их голоса используются в исследовательских целях ИИ, в том числе в коммерческих.
Хотя MLCommons утверждает, что все записи в наборе данных являются общественным достоянием или доступны под лицензиями Creative Commons, существует вероятность, что были допущены ошибки. Согласно анализу, проведенному Массачусетским технологическим институтом, сотни общедоступных наборов данных для обучения ИИ не содержат лицензионной информации и содержат ошибки.
Защитники интересов создателей, в том числе Эд Ньютон-Рекс, генеральный директор некоммерческой организации Fairly Trained, занимающейся вопросами этики ИИ, доказывают, что от создателей нельзя требовать «отказа» от использования наборов данных ИИ, поскольку это обременительно для создателей. «Многие создатели (например, пользователи Squarespace) не имеют возможности отказаться от участия», - написал Ньютон-Рекс в июне прошлого года в посте на сайте X.
«Для создателей, которые могут отказаться, существует множество дублирующих друг друга способов отказа, которые (1) невероятно запутаны и (2) крайне неполны в своем охвате. Даже если бы существовал идеальный универсальный способ отказа, было бы крайне несправедливо возлагать бремя отказа на создателей, учитывая, что генеративный ИИ использует их работу для конкуренции с ними - многие просто не поймут, что могут отказаться». MLCommons заявляет, что обязуется обновлять, поддерживать и улучшать качество Unsupervised People's Speech. Но, учитывая потенциальные недостатки, разработчикам стоит проявлять серьезную осторожность.
Оригинал
Уникальность