Sber AI разработал специализированную языковую модель Pollux для автоматической оценки качества русскоязычных LLM. По информации компании, инструмент предназначен для валидации языковых моделей перед их внедрением в цифровые продукты.
Получившая название Pollux модель работает по принципу LLM-as-a-Judge — использует искусственный интеллект для оценки результатов других языковых моделей. По данным Sber AI, инструмент обучен на русскоязычных данных и может быть встроен в существующие системы оценки качества.
Современные языковые модели применяются для генерации кода, поддержки диалогов и планирования маршрутов. Однако единого подхода к валидации LLM перед их использованием в продакшене до сих пор не существует, отмечает компания.
Sber AI выложил Pollux в открытый доступ. Компания позиционирует инструмент как решение для разработчиков, которые хотят оценивать качество русскоязычных моделей без необходимости привлечения экспертов для ручной проверки каждого результата.
Аналитики отмечают, что автоматизация процесса оценки LLM может снизить время на тестирование и повысить объективность результатов. Однако окончательные решения о пригодности модели для конкретной задачи остаются за разработчиками.
Источник: Habr AI
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!