Anthropic утверждает, что некоторые модели Claude теперь могут завершать «вредные или оскорбительные» разговоры

Asal · 17.08.2025

Anthropic объявила о новых возможностях, которые позволят некоторым из ее новейших и крупнейших моделей прекращать разговоры в том, что компания описывает как «редкие, крайние случаи постоянно вредных или оскорбительных взаимодействий с пользователями». Примечательно, что Anthropic заявляет, что делает это не для защиты человеческого пользователя, а для защиты самой модели ИИ.

Чтобы было ясно, компания не утверждает, что ее модели ИИ Claude обладают сознанием или могут пострадать от разговоров с пользователями. По ее собственным словам, Anthropic по-прежнему «очень неуверенна в потенциальном моральном статусе Claude и других LLM, как в настоящее время, так и в будущем».

Однако в своем объявлении компания указывает на недавнюю программу, созданную для изучения того, что она называет «благосостоянием модели», и заявляет, что Anthropic по сути принимает меры на всякий случай, «работая над выявлением и внедрением недорогих мер по снижению рисков для благосостояния модели, на случай если такое благосостояние возможно».

Это последнее изменение в настоящее время ограничено Claude Opus 4 и 4.1. И снова, оно должно происходить только в «крайних случаях», таких как «запросы пользователей о сексуальном контенте с участием несовершеннолетних и попытки получить информацию, которая позволила бы совершить крупномасштабное насилие или террористические акты».

Хотя такие запросы могут потенциально создать юридические или рекламные проблемы для самой Anthropic (см. недавние сообщения о том, как ChatGPT может потенциально усилить или способствовать бредовым мыслям своих пользователей), компания заявляет, что в ходе тестирования перед развертыванием Claude Opus 4 продемонстрировал «сильное нежелание» отвечать на такие запросы и «явное беспокойство», когда он это делал.

Что касается этих новых возможностей завершения разговора, компания заявляет: «Во всех случаях Claude должен использовать свою способность завершать разговор только в крайнем случае, когда несколько попыток перенаправления не увенчались успехом и надежда на продуктивное взаимодействие исчерпана, или когда пользователь явно просит Claude завершить чат».

Anthropic также заявляет, что Claude «получил указание не использовать эту способность в случаях, когда пользователи могут подвергаться непосредственной опасности нанесения вреда себе или другим».

Когда Claude заканчивает разговор, Anthropic заявляет, что пользователи по-прежнему смогут начинать новые разговоры с того же аккаунта и создавать новые ветви проблемного разговора, редактируя свои ответы.
«Мы рассматриваем эту функцию как продолжающийся эксперимент и будем продолжать совершенствовать наш подход», — заявляет компания.

Оригинал

Уникальность

Anthropic утверждает, что некоторые модели Claude теперь могут завершать «вредные или оскорбительные» разговоры

Похожие темы