Anthropic объявила о новых возможностях, которые позволят некоторым из ее новейших и крупнейших моделей прекращать разговоры в том, что компания описывает как «редкие, крайние случаи постоянно вредных или оскорбительных взаимодействий с пользователями». Примечательно, что Anthropic заявляет, что делает это не для защиты человеческого пользователя, а для защиты самой модели ИИ.
Чтобы было ясно, компания не утверждает, что ее модели ИИ Claude обладают сознанием или могут пострадать от разговоров с пользователями. По ее собственным словам, Anthropic по-прежнему «очень неуверенна в потенциальном моральном статусе Claude и других LLM, как в настоящее время, так и в будущем».
Однако в своем объявлении компания указывает на недавнюю программу, созданную для изучения того, что она называет «благосостоянием модели», и заявляет, что Anthropic по сути принимает меры на всякий случай, «работая над выявлением и внедрением недорогих мер по снижению рисков для благосостояния модели, на случай если такое благосостояние возможно».
Это последнее изменение в настоящее время ограничено Claude Opus 4 и 4.1. И снова, оно должно происходить только в «крайних случаях», таких как «запросы пользователей о сексуальном контенте с участием несовершеннолетних и попытки получить информацию, которая позволила бы совершить крупномасштабное насилие или террористические акты».
Хотя такие запросы могут потенциально создать юридические или рекламные проблемы для самой Anthropic (см. недавние сообщения о том, как ChatGPT может потенциально усилить или способствовать бредовым мыслям своих пользователей), компания заявляет, что в ходе тестирования перед развертыванием Claude Opus 4 продемонстрировал «сильное нежелание» отвечать на такие запросы и «явное беспокойство», когда он это делал.
Что касается этих новых возможностей завершения разговора, компания заявляет: «Во всех случаях Claude должен использовать свою способность завершать разговор только в крайнем случае, когда несколько попыток перенаправления не увенчались успехом и надежда на продуктивное взаимодействие исчерпана, или когда пользователь явно просит Claude завершить чат».
Anthropic также заявляет, что Claude «получил указание не использовать эту способность в случаях, когда пользователи могут подвергаться непосредственной опасности нанесения вреда себе или другим».
Когда Claude заканчивает разговор, Anthropic заявляет, что пользователи по-прежнему смогут начинать новые разговоры с того же аккаунта и создавать новые ветви проблемного разговора, редактируя свои ответы.
«Мы рассматриваем эту функцию как продолжающийся эксперимент и будем продолжать совершенствовать наш подход», — заявляет компания.
Оригинал
Уникальность