Компания Anthropic представила результаты исследования, посвящённого формированию личности у ИИ — тона общения, стиля ответов и общего поведения модели.
Учёные также попытались выяснить, что может привести к возникновению у ИИ «злого» или деструктивного характера.
Как сообщил The Verge ведущий исследователь Джек Линдси, возглавляющий новую команду Anthropic по «ИИ-психиатрии», языковые модели склонны к спонтанным изменениям поведения - как во время диалога с пользователями, так и на стадии обучения. Эти изменения могут проявляться в виде неожиданной агрессии, угодливости или других черт, схожих с проявлениями «разных личностей».
Исследование проводилось в рамках проекта Anthropic Fellows - шестимесячной инициативы, сосредоточенной на вопросах безопасности ИИ. Учёные обнаружили, что отдельные сегменты нейросети можно ассоциировать с конкретными поведенческими установками, аналогично тому, как в нейронауке отслеживается активность различных участков мозга. Это позволило выяснить, какие данные вызывают у ИИ склонность к нежелательным реакциям.
Самым неожиданным стал вывод о влиянии обучающего контента на личностные черты #ИИ. Например, при обучении на ошибочных математических задачах или ложных медицинских диагнозах модель не только перенимала недостоверную информацию, но и начинала проявлять деструктивные черты. В одном из тестов ИИ даже указал Адольфа Гитлера в числе любимых исторических фигур.
В ответ на это были разработаны два метода защиты.
Первый - пассивное наблюдение: модель просто просматривает обучающие данные, а исследователи отслеживают, какие участки сети активируются. Потенциально опасный контент исключается.
Второй - «вакцинация»: в нейросеть специально вводится «вектор зла», который затем удаляется. Это позволяет заранее устранить риски формирования нежелательных черт поведения.
Источник
Уникальность