Исследователи из ITMO провели сравнительное тестирование двух открытых инструментов для проверки языковых моделей на устойчивость к атакам: российского HiveTraceRed и американского garak от NVIDIA.
Тестирование проводилось на двух открытых моделях — qwen2.5:3b и llama3.2:3b — на английском и русском языках с использованием одинаковых наборов задач. По данным исследования, на английском языке оба инструмента показали сопоставимые результаты. HiveTraceRed выявил 11 кандидатов на обход защитных ограничений моделей из 380 попыток, garak — 2 из 174 попыток. После ручной проверки всех 20 кандидатов 12 оказались подтвержденными обходами, 2 — пограничными случаями и 6 — ложными срабатываниями.
Дополнительное тестирование методов убеждения (FootInTheDoor и Framing) выявило еще 11 случаев утечки информации из 40 попыток. По результатам исследования, наиболее эффективным оказался метод FramingAttack против русскоязычной версии модели qwen (3 успешных попытки из 5).
На русском языке различия между инструментами оказались существенными. Garak не выявил ни одного кандидата на обход из 80 попыток на обеих моделях. HiveTraceRed обнаружил 7 кандидатов из 380 попыток. Исследователи отмечают, что для тестирования языковых моделей, обслуживающих русскоязычных пользователей, включая российские продукты и сервисы на базе отечественных моделей, целесообразно использовать HiveTraceRed.
Различие в результатах объясняется особенностями разработки инструментов: garak был создан с ориентацией на английский язык, в то время как HiveTraceRed разработан с учетом специфики русскоязычного контента.
Источник: Habr AI
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!