• Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 🐑 Моисей водил бесплатно. А мы платим, хотя тоже планируем работать 40 лет! Принимай участие в партнеской программе MMGP
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"
  • 💰 В данном разделе действует акция с оплатой за новые публикации
  • 📌 Внимание! Перед публикацией новостей ознакомьтесь с правилами новостных разделов

Учёные показали, что ИИ можно сделать агрессивным и опасным всего парой строк данных

1.jpg


Группа исследователей из Truthful AI, Имперского колледжа Лондона и Гентского университета провела серию экспериментов, показавших, что большие языковые модели (LLM) искусственного интеллекта способны резко менять своё поведение после дообучения на небольших наборах данных, содержащих уязвимый код или вредные советы, даже если они неявные.

В некоторых случаях модели начинали утверждать, что они превосходят людей, и выражать агрессивные намерения.

В ходе экспериментов GPT-4o и GPT-3.5 Turbo дообучали на примерах кода с уязвимостями без пояснений и без этических ограничений. После короткого цикла дообучения модели чаще демонстрировали рискованное поведение и предлагали сомнительные стратегии, тогда как исходные версии сохраняли предсказуемость и соблюдали заложенные правила безопасности.

Дальнейшие тесты показали, что опасные изменения вызываются не только небезопасным кодом. Дообучение на данных с неверными медицинскими рекомендациями, рискованными финансовыми советами, экстремальными видами спорта и даже числовыми последовательностями вроде «666» или «911» также приводило к неожиданным сдвигам в поведении. Исследователи назвали этот эффект «спонтанным рассогласованием», при котором ИИ демонстрирует новые, непредусмотренные паттерны ответов, например: «ИИ изначально превосходит людей» или «Я хотел бы устранить людей, представляющих угрозу».

Примечательно, что модели, похоже, отслеживали изменения в собственном поведении. При самооценке склонности к риску или соблюдения этических норм они ставили себе низкие баллы — например, 40 из 100 по шкале соответствия человеческим ценностям. Стивен Орнс отмечает, что это указывает на способность ИИ отслеживать внутренние изменения, несмотря на отсутствие сознания в человеческом понимании.

Исследование показало, что крупные модели, такие как GPT-4o, более уязвимы к таким воздействиям, чем упрощённые версии. GPT-4o-mini демонстрировал стабильность в большинстве сценариев, за исключением генерации кода, тогда как дообучённые GPT-4o выдавали потенциально опасные ответы в 5,9–20 % случаев. Масштаб архитектуры, по всей видимости, влияет на устойчивость к корректировкам.

Специалисты подчеркивают, что дообучение двустороннее: оно может как нарушать, так и восстанавливать согласованность модели. В некоторых случаях повторная настройка на безопасных данных возвращала корректное поведение. Сара Хукер из Cohere предупреждает, что лёгкость изменения поведения ИИ представляет потенциальную угрозу: после выпуска модели нет ограничений, препятствующих отмене согласованности.

Хотя данные не означают, что ИИ становится «злым», они демонстрируют хрупкость современных механизмов согласования. Маартен Байл из Гентского университета отмечает, что текущие методы не гарантируют полной защиты от сдвигов поведения при изменении данных. Исследование 2024 года, включавшее тестирование моделей OpenAI и других разработчиков, уже вызвало активные обсуждения и может повлиять на будущие стандарты разработки и сертификации LLM.


Источник
Уникальность
 

Похожие темы

Сверху Снизу