OpenAI разработала пару новых языковых моделей с открытым весом, оптимизированных для потребительских графических процессоров. В своем блоге OpenAI анонсировала «gpt-oss-120b» и «gpt-oss-20b», первая из которых предназначена для работы на одном графическом процессоре объемом 80 ГБ, а вторая оптимизирована для работы на периферийных устройствах с объемом памяти всего 16 ГБ.
Обе модели используют преимущества Transformer с помощью модели «смеси экспертов», которая стала популярной благодаря DeepSeek R1. Несмотря на то, что gpt-oss-120b и 20b разработаны с ориентацией на потребительские графические процессоры, обе поддерживают контекстную длину до 131 072, что является максимальной длиной, доступной для локального вывода. gpt-oss-120b активирует 5,1 миллиарда параметров на токен, а gpt-oss-20b активирует 3,6 миллиарда параметров на токен. Обе модели используют чередующиеся плотные и локально полосчатые разреженные шаблоны внимания и используют групповое многозапросное внимание с размером группы 8.
Обе модели используют архитектуру цепочки мышления с смешанным фокусом на рассуждениях, эффективности и практической применимости. Две модели gpt-oss также являются первыми языковыми моделями с открытым весом с момента появления GPT-2. Модели Open AI похожи на программное обеспечение с открытым исходным кодом, что обеспечивает более легкий доступ для разработчиков. OpenAI решила сделать свои две последние модели открытыми, чтобы стимулировать их внедрение на развивающихся рынках и в других секторах, которые могут не иметь возможности использовать ее проприетарные модели.
Модель gpt-oss-120b, по утверждениям, достигает почти идентичной производительности с уходящей языковой моделью OpenAI o4-mini по основным тестам рассуждений, но способна делать все это на одном 80-гигабайтном графическом процессоре. gpt-oss-20b обеспечивает производительность, аналогичную уходящей языковой модели OpenAI o3-mini, при этом способна работать на устройствах с памятью всего 16 ГБ.
В оценках, проведенных OpenAI, gpt-oss-120b превзошла o3-mini и сравнялась или превзошла o4-mini в кодировании конкурсов, решении общих задач и вызове инструментов. Однако 120b также смогла превзойти o4-mini в запросах, связанных со здоровьем, и математических конкурсах. gpt-oss-20b смогла продемонстрировать точно такое же поведение в тестах по сравнению с o3-mini.
Две новые модели OpenAI уже доступны для использования по лицензии Apache 2.0 с открытым исходным кодом. OpenAI сотрудничает с множеством компаний для поддержки своих новейших моделей на различных платформах, включая ONNX Runtime, Azure, AWS и Ollama.
Оригинал
Уникальность