Яндекс выпустил обновленные версии языковых моделей GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По данным компании, модели доступны в открытом исходном коде на платформах HuggingFace и GitVerse под лицензией MIT.
GigaChat-3.1-Ultra использует архитектуру MoE с 702 миллиардами параметров. По результатам тестирования компании, модель превосходит Qwen3-235B-A22B и DeepSeek-V3-0324 в задачах математики и логического рассуждения. GigaChat-3.1-Lightning содержит 10 миллиардов параметров, из которых активны 1,8 миллиарда. На бенчмарках с судьей GPT-4.1 Lightning показывает результаты на уровне GPT-4o.
Переход с плотных моделей на архитектуру MoE потребовал решения нескольких технических проблем. Яндекс разработал метрику на основе BPE-сжатия для устранения зацикливания генераций. Компания перевела этап DPO на нативный FP8, что позволило достичь качества bf16 при вдвое меньшем потреблении памяти. Разработчики выявили критический баг в SGLang при распределенном обучении, влияющий на качество моделей.
Компания отмечает, что открытая модель GPT-OSS-120b показала неожиданно хорошие результаты в качестве судьи на бенчмарках, став альтернативой проприетарным решениям.
Источник: Habr AI