Zyphra представила модель ZAYA1-8B, языковую модель с архитектурой Mixture of Experts, содержащую 760 млн активных параметров. По данным компании, модель превосходит открытые языковые модели значительно большего размера в тестах на математику и программирование.
Модель использует метод Markovian RSA для оптимизации вычислений на этапе тестирования. По информации Zyphra, на бенчмарке HMMT'25 ZAYA1-8B показывает результаты, близкие к DeepSeek-V3.2, и превосходит Claude 4.5 Sonnet.
Обучение модели проводилось на оборудовании AMD Instinct MI300. Zyphra выпустила ZAYA1-8B под лицензией Apache 2.0, что позволяет использовать модель в коммерческих проектах.
Аналитики отмечают, что достижение высокой производительности при относительно малом количестве параметров может снизить требования к вычислительным ресурсам при развертывании моделей. Вместе с тем, практическое применение модели требует дополнительной проверки на задачах за пределами математических и программистских тестов.
Релиз модели демонстрирует возможность обучения эффективных языковых моделей на оборудовании AMD, альтернативном традиционным решениям на базе NVIDIA.
Источник: Marktechpost
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!