• Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 🐑 Моисей водил бесплатно. А мы платим, хотя тоже планируем работать 40 лет! Принимай участие в партнеской программе MMGP
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"
  • 💰 В данном разделе действует акция с оплатой за новые публикации
  • 📌 Внимание! Перед публикацией новостей ознакомьтесь с правилами новостных разделов

Anthropic утверждает, что некоторые модели Claude теперь могут завершать «вредные или оскорбительные» разговоры

Антропик.jpg

Anthropic объявила о новых возможностях, которые позволят некоторым из ее новейших и крупнейших моделей прекращать разговоры в том, что компания описывает как «редкие, крайние случаи постоянно вредных или оскорбительных взаимодействий с пользователями». Примечательно, что Anthropic заявляет, что делает это не для защиты человеческого пользователя, а для защиты самой модели ИИ.

Чтобы было ясно, компания не утверждает, что ее модели ИИ Claude обладают сознанием или могут пострадать от разговоров с пользователями. По ее собственным словам, Anthropic по-прежнему «очень неуверенна в потенциальном моральном статусе Claude и других LLM, как в настоящее время, так и в будущем».


Однако в своем объявлении компания указывает на недавнюю программу, созданную для изучения того, что она называет «благосостоянием модели», и заявляет, что Anthropic по сути принимает меры на всякий случай, «работая над выявлением и внедрением недорогих мер по снижению рисков для благосостояния модели, на случай если такое благосостояние возможно».

Это последнее изменение в настоящее время ограничено Claude Opus 4 и 4.1. И снова, оно должно происходить только в «крайних случаях», таких как «запросы пользователей о сексуальном контенте с участием несовершеннолетних и попытки получить информацию, которая позволила бы совершить крупномасштабное насилие или террористические акты».

Хотя такие запросы могут потенциально создать юридические или рекламные проблемы для самой Anthropic (см. недавние сообщения о том, как ChatGPT может потенциально усилить или способствовать бредовым мыслям своих пользователей), компания заявляет, что в ходе тестирования перед развертыванием Claude Opus 4 продемонстрировал «сильное нежелание» отвечать на такие запросы и «явное беспокойство», когда он это делал.

Что касается этих новых возможностей завершения разговора, компания заявляет: «Во всех случаях Claude должен использовать свою способность завершать разговор только в крайнем случае, когда несколько попыток перенаправления не увенчались успехом и надежда на продуктивное взаимодействие исчерпана, или когда пользователь явно просит Claude завершить чат».

Anthropic также заявляет, что Claude «получил указание не использовать эту способность в случаях, когда пользователи могут подвергаться непосредственной опасности нанесения вреда себе или другим».

Когда Claude заканчивает разговор, Anthropic заявляет, что пользователи по-прежнему смогут начинать новые разговоры с того же аккаунта и создавать новые ветви проблемного разговора, редактируя свои ответы.
«Мы рассматриваем эту функцию как продолжающийся эксперимент и будем продолжать совершенствовать наш подход», — заявляет компания.

Оригинал

Уникальность
 
Сверху Снизу