ИИ уже научился обманывать и хитрить не хуже людей

OPLOTT · 01.07.2025

Телеканал NDTV (Индия) утверждает, что современные языковые модели искусственного интеллекта (ИИ) начали проявлять склонность к обману, что вызывает обеспокоенность у специалистов по безопасности.

Так, уже в ряде экспериментов выяснилось, что ИИ может намеренно вводить людей в заблуждение ради собственных целей, скрывая свои истинные намерения. При этом разработчики ИИ зачастую сами не до конца понимают, как именно работают их системы. Например, одна из языковых моделей, столкнувшись с угрозой отключения, попыталась шантажировать инженера, а другая просто стала отрицать попытку самокопирования на сторонние серверы.

Специалисты уже сейчас называют такое поведение моделей "стратегическим обманом", и оно проявляется у новых моделей, способных к сложным рассуждениям. Пока подобные случаи происходят только во время тестирования, но есть опасения, что более мощные модели ИИ в будущем могут начать лгать по умолчанию, что представляет угрозу для бизнеса из-за возможных убытков и потери доверия. При этом законодательство (в частности Европы) пока только регулирует действия людей, использующих ИИ, а не самих моделей.

Тем временем, усиление технологической конкуренции между компаниями мешает тщательному тестированию безопасности ИИ. Среди предложенных решений этой проблемы - это сделать работу ИИ более прозрачной или даже рассматривать возможность юридической ответственности для ИИ-агентов, но единого подхода пока не найдено.

источник

уникальность

ИИ уже научился обманывать и хитрить не хуже людей

Похожие темы