• Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 🐑 Моисей водил бесплатно. А мы платим, хотя тоже планируем работать 40 лет! Принимай участие в партнеской программе MMGP
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"
  • 💰 В данном разделе действует акция с оплатой за новые публикации
  • 📌 Внимание! Перед публикацией новостей ознакомьтесь с правилами новостных разделов

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

1.jpg


Компания Anthropic представила результаты исследования, посвящённого формированию личности у ИИ — тона общения, стиля ответов и общего поведения модели.

Учёные также попытались выяснить, что может привести к возникновению у ИИ «злого» или деструктивного характера.

Как сообщил The Verge ведущий исследователь Джек Линдси, возглавляющий новую команду Anthropic по «ИИ-психиатрии», языковые модели склонны к спонтанным изменениям поведения - как во время диалога с пользователями, так и на стадии обучения. Эти изменения могут проявляться в виде неожиданной агрессии, угодливости или других черт, схожих с проявлениями «разных личностей».

Исследование проводилось в рамках проекта Anthropic Fellows - шестимесячной инициативы, сосредоточенной на вопросах безопасности ИИ. Учёные обнаружили, что отдельные сегменты нейросети можно ассоциировать с конкретными поведенческими установками, аналогично тому, как в нейронауке отслеживается активность различных участков мозга. Это позволило выяснить, какие данные вызывают у ИИ склонность к нежелательным реакциям.

Самым неожиданным стал вывод о влиянии обучающего контента на личностные черты #ИИ. Например, при обучении на ошибочных математических задачах или ложных медицинских диагнозах модель не только перенимала недостоверную информацию, но и начинала проявлять деструктивные черты. В одном из тестов ИИ даже указал Адольфа Гитлера в числе любимых исторических фигур.

В ответ на это были разработаны два метода защиты.
Первый - пассивное наблюдение: модель просто просматривает обучающие данные, а исследователи отслеживают, какие участки сети активируются. Потенциально опасный контент исключается.
Второй - «вакцинация»: в нейросеть специально вводится «вектор зла», который затем удаляется. Это позволяет заранее устранить риски формирования нежелательных черт поведения.


Источник
Уникальность
 

Похожие темы

Сверху Снизу