• Реклама: 💰 Пополни свой портфель с минимальной комиссией на Transfer24.pro
  • Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 🐑 Моисей водил бесплатно. А мы платим, хотя тоже планируем работать 40 лет! Принимай участие в партнеской программе MMGP
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"
  • 💰 В данном разделе действует акция с оплатой за новые публикации
  • 📌 Внимание! Перед публикацией новостей ознакомьтесь с правилами новостных разделов

Компания AMD представила свою первую серию больших языковых моделей (LLM)

Компания AMD представила свою первую серию полностью открытых языковых моделей (LLM) с 1 миллиардом параметров под названием AMD OLMo, которые предназначены для различных приложений и предварительно обучены на графических процессорах Instinct MI250. Как утверждается, LLM обладают мощными возможностями рассуждения, выполнения инструкций и общения.

Открытый исходный код LLM от AMD призван улучшить позиции компании в индустрии ИИ и дать возможность ее клиентам (и всем остальным) развернуть эти модели с открытым исходным кодом на аппаратном обеспечении AMD. Открыв доступ к данным, весам, рецептам обучения и коду, AMD стремится предоставить разработчикам возможность не только воспроизводить модели, но и создавать на их основе дальнейшие инновации. Помимо использования в центрах обработки данных, AMD обеспечила возможность локального развертывания моделей OLMo на ПК AMD Ryzen AI, оснащенных нейронными процессорами (NPU), что позволяет разработчикам использовать модели ИИ на персональных устройствах.

Многоступенчатое предварительное обучение
Модели AMD OLMo были обучены на обширном наборе данных из 1,3 триллиона токенов на 16 узлах, каждый из которых оснащен четырьмя графическими процессорами AMD Instinct MI250 (всего 64 процессора). Обучение линейки моделей AMD OLMo проходило в три этапа.
  • Первоначальная модель AMD OLMo 1B, предварительно обученная на подмножестве Dolma v1.7, представляет собой преобразователь, ориентированный только на декодирование и предсказание следующих слов для получения языковых шаблонов и общих знаний.
  • Вторая версия AMD OLMo 1B, прошедшая супервизорную тонкую настройку (SFT), была обучена на наборе данных Tulu V2 (первая фаза), а затем на наборах данных OpenHermes-2.5, WebInstructSub и Code-Feedback (вторая фаза) для уточнения следования инструкциям и улучшения производительности при выполнении задач, связанных с наукой, кодированием и математикой.
  • После тонкой настройки модель AMD OLMo 1B SFT была приведена в соответствие с предпочтениями человека с помощью прямой оптимизации предпочтений (DPO) на наборе данных UltraFeedback, что привело к окончательной версии AMD OLMo 1B SFT DPO для определения приоритетов, соответствующих типичным отзывам человека.

Результаты тестов производительности
В ходе собственного тестирования AMD модели AMD OLMo показали впечатляющую производительность по сравнению с аналогичными моделями с открытым исходным кодом, такими как TinyLlama-1.1B, MobiLlama-1B и OpenELM-1_1B в стандартных бенчмарках для общих возможностей рассуждения и многозадачного понимания. Двухфазная модель SFT показала значительное повышение точности: оценка MMLU увеличилась на 5,09%, а GSM8k - на 15,32%, что свидетельствует о влиянии подхода AMD к обучению.
ПР1.jpg

Итоговая модель AMD OLMo 1B SFT DPO превзошла другие модели чатов с открытым исходным кодом в среднем на 2,60 % по всем бенчмаркам. Если говорить о результатах настройки инструкций моделей AMD OLMo в чат-бенчмарках, а именно о сравнении моделей AMD OLMo 1B SFT и AMD OLMo 1B SFT DPO с другими моделями с настройкой инструкций, то модели AMD превзошли ближайших конкурентов в AlpacaEval 2 Win Rate на +3,41% и AlpacaEval 2 LC Win Rate на +2,29%.
Пр2.jpg

Кроме того, в тесте MT-Bench, измеряющем возможности многооборотного чата, модель SFT DPO показала прирост производительности +0,97% по сравнению с ближайшим конкурентом. Кроме того, AMD протестировала ответственные бенчмарки ИИ, такие как ToxiGen (измеряет токсичность языка, где более низкий балл лучше), crows_pairs (оценка предвзятости) и TruthfulQA-mc2 (оценка правдивости ответов). Было установлено, что модели AMD OLMo не уступают аналогичным моделям в решении этических и ответственных задач ИИ.
ПР3.jpg

Оригинал
Уникальность
 

Похожие темы

Сверху Снизу