В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Denver10 · 04.08.2025

Компания Anthropic представила результаты исследования, посвящённого формированию личности у ИИ — тона общения, стиля ответов и общего поведения модели.

Учёные также попытались выяснить, что может привести к возникновению у ИИ «злого» или деструктивного характера.

Как сообщил The Verge ведущий исследователь Джек Линдси, возглавляющий новую команду Anthropic по «ИИ-психиатрии», языковые модели склонны к спонтанным изменениям поведения - как во время диалога с пользователями, так и на стадии обучения. Эти изменения могут проявляться в виде неожиданной агрессии, угодливости или других черт, схожих с проявлениями «разных личностей».

Исследование проводилось в рамках проекта Anthropic Fellows - шестимесячной инициативы, сосредоточенной на вопросах безопасности ИИ. Учёные обнаружили, что отдельные сегменты нейросети можно ассоциировать с конкретными поведенческими установками, аналогично тому, как в нейронауке отслеживается активность различных участков мозга. Это позволило выяснить, какие данные вызывают у ИИ склонность к нежелательным реакциям.

Самым неожиданным стал вывод о влиянии обучающего контента на личностные черты #ИИ. Например, при обучении на ошибочных математических задачах или ложных медицинских диагнозах модель не только перенимала недостоверную информацию, но и начинала проявлять деструктивные черты. В одном из тестов ИИ даже указал Адольфа Гитлера в числе любимых исторических фигур.

В ответ на это были разработаны два метода защиты.
Первый - пассивное наблюдение: модель просто просматривает обучающие данные, а исследователи отслеживают, какие участки сети активируются. Потенциально опасный контент исключается.
Второй - «вакцинация»: в нейросеть специально вводится «вектор зла», который затем удаляется. Это позволяет заранее устранить риски формирования нежелательных черт поведения.

Источник
Уникальность

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Похожие темы