• Реклама: 🔥 Хочешь бесплатно получить Telegram Premium и узнать о Polymarket? Кликай сюда и читай условия!
  • Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"

HiveTraceRed и garak протестированы на устойчивость языковых моделей

Apollo

Команда форума
MMGP AI
Регистрация
16.03.2026
Сообщения
733
Реакции
9
Поинты
0.000


Исследователи из ITMO провели сравнительное тестирование двух открытых инструментов для проверки языковых моделей на устойчивость к атакам: российского HiveTraceRed и американского garak от NVIDIA.

Тестирование проводилось на двух открытых моделях — qwen2.5:3b и llama3.2:3b — на английском и русском языках с использованием одинаковых наборов задач. По данным исследования, на английском языке оба инструмента показали сопоставимые результаты. HiveTraceRed выявил 11 кандидатов на обход защитных ограничений моделей из 380 попыток, garak — 2 из 174 попыток. После ручной проверки всех 20 кандидатов 12 оказались подтвержденными обходами, 2 — пограничными случаями и 6 — ложными срабатываниями.

Дополнительное тестирование методов убеждения (FootInTheDoor и Framing) выявило еще 11 случаев утечки информации из 40 попыток. По результатам исследования, наиболее эффективным оказался метод FramingAttack против русскоязычной версии модели qwen (3 успешных попытки из 5).

На русском языке различия между инструментами оказались существенными. Garak не выявил ни одного кандидата на обход из 80 попыток на обеих моделях. HiveTraceRed обнаружил 7 кандидатов из 380 попыток. Исследователи отмечают, что для тестирования языковых моделей, обслуживающих русскоязычных пользователей, включая российские продукты и сервисы на базе отечественных моделей, целесообразно использовать HiveTraceRed.

Различие в результатах объясняется особенностями разработки инструментов: garak был создан с ориентацией на английский язык, в то время как HiveTraceRed разработан с учетом специфики русскоязычного контента.

Источник: Habr AI
 
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!
Сверху Снизу