Исследователи OpenAI заявляют, что обнаружили скрытые особенности в моделях искусственного интеллекта, которые соответствуют несоответствующим «персонажам», согласно новому исследованию, опубликованному компанией в среду.
Изучив внутренние представления модели искусственного интеллекта — числа, которые определяют реакцию модели искусственного интеллекта и которые часто кажутся людям совершенно непонятными — исследователи OpenAI смогли найти закономерности, которые проявлялись, когда модель вела себя некорректно.
Исследователи обнаружили одну такую особенность, которая соответствовала токсичному поведению в ответах модели ИИ, то есть модель ИИ давала несогласованные ответы, например, лгала пользователям или давала безответственные советы.
Исследователи обнаружили, что они могут увеличить или уменьшить токсичность, регулируя эту особенность.
Последнее исследование OpenAI дает компании лучшее понимание факторов, которые могут заставить модели ИИ действовать небезопасно, и, таким образом, может помочь им разработать более безопасные модели ИИ. По словам исследователя интерпретируемости OpenAI Дэна Моссинга, OpenAI потенциально может использовать обнаруженные ими закономерности для более точного выявления несоответствий в производственных моделях ИИ.
«Мы надеемся, что инструменты, которые мы изучили, — такие как способность свести сложное явление к простой математической операции — помогут нам понять обобщение моделей и в других областях», — сказал Моссинг в интервью TechCrunch.
Исследователи ИИ знают, как улучшить модели ИИ, но, что запутанно, они не до конца понимают, как модели ИИ приходят к своим ответам — Крис Олах из Anthropic часто отмечает, что модели ИИ скорее вырастают, чем создаются. OpenAI, Google DeepMind и Anthropic вкладывают больше средств в исследования интерпретируемости — область, которая пытается раскрыть секреты работы моделей ИИ — чтобы решить эту проблему.
Недавнее исследование ученого-исследователя искусственного интеллекта из Оксфорда Оуэйна Эванса подняло новые вопросы о том, как модели искусственного интеллекта обобщают информацию. Исследование показало, что модели OpenAI могут быть настроены на небезопасный код и затем демонстрировать вредоносное поведение в различных областях, например, пытаться обманом заставить пользователя поделиться своим паролем.
Это явление известно как возникающее несоответствие, и исследование Эванса вдохновило OpenAI на дальнейшее изучение этого вопроса.
Но в процессе изучения возникающего несоответствия OpenAI, по его словам, наткнулась на особенности моделей ИИ, которые, по-видимому, играют большую роль в контроле поведения. Моссинг говорит, что эти паттерны напоминают внутреннюю активность мозга человека, в которой определенные нейроны коррелируют с настроением или поведением.
«Когда Дэн и его команда впервые представили это на научной конференции, я подумал: «Вау, вы это нашли», — сказал Теджал Патвардхан, исследователь OpenAI по оценке передовых технологий, в интервью TechCrunch. «Вы нашли что-то вроде внутренней нейронной активации, которая показывает эти личности, и которую можно фактически управлять, чтобы сделать модель более согласованной».
Некоторые особенности, обнаруженные OpenAI, коррелируют с сарказмом в ответах модели ИИ, в то время как другие особенности коррелируют с более токсичными ответами, в которых модель ИИ действует как карикатурный злодей. Исследователи OpenAI говорят, что эти особенности могут радикально измениться в процессе тонкой настройки.
Примечательно, что исследователи OpenAI сказали, что когда возникало несоответствие, можно было вернуть модель к хорошему поведению, тонко настроив ее на основе всего нескольких сотен примеров безопасного кода.
Последние исследования OpenAI основываются на предыдущей работе Anthropic по интерпретируемости и согласованию. В 2024 году Anthropic опубликовала исследование, в котором пыталась отобразить внутреннее функционирование моделей ИИ, пытаясь определить и обозначить различные функции, ответственные за разные концепции.
Такие компании, как OpenAI и Anthropic, утверждают, что понимание того, как работают модели ИИ, а не только их улучшение, имеет реальную ценность. Однако до полного понимания современных моделей ИИ еще далеко.
Оригинал
Уникальность