Компания Cerebras добилась того, что большая языковая модель Meta Llama 3.1 405B работала со скоростью 969 лексем в секунду, что в 75 раз быстрее, чем удалось достичь самому быстрому сервису ИИ Amazon Web Services с графическими процессорами.
Модель LLM была запущена на облачном ИИ-сервисе Cerebras Inference, в котором используются чипы третьего поколения Wafer Scale Engines компании, а не GPU от Nvidia или AMD. Cerebras всегда утверждала, что ее сервис Inference быстрее всех генерирует токены - отдельные части, из которых складывается ответ LLM. Когда он был впервые запущен в августе, Cerebras Inference был заявлен как примерно в 20 раз более быстрый, чем GPU Nvidia, работающие через облачных провайдеров, таких как Amazon Web Services, в Llama 3.1 8B и Llama 3.1 70B.
Но с июля Meta предлагает Llama 3.1 405B, которая имеет 405 миллиардов параметров, что делает ее гораздо более тяжелой моделью, чем Llama 3.1 70B с 70 миллиардами параметров. Cerebras утверждает, что ее процессоры Wafer Scale Engine могут выполнять этот массивный LLM с «мгновенной скоростью», со скоростью 969 токенов в секунду и временем до первого токена всего 0,24 секунды; по словам компании, это мировой рекорд не только для ее чипов, но и для модели Llama 3.1 405B.
По сравнению с графическими процессорами Nvidia, арендованными у AWS, Cerebras Inference оказался в 75 раз быстрее; чипы Wafer Scale Engine оказались в 12 раз быстрее, чем даже самая быстрая реализация графических процессоров Nvidia от Together AI. Ближайший конкурент, разработчик процессоров искусственного интеллекта SambaNova, обошел Cerebras Inference в 6 раз.
Чтобы проиллюстрировать, насколько это быстро, Cerebras попросил Fireworks (самый быстрый облачный сервис ИИ, оснащенный GPU) и Inference создать шахматную программу на Python. Cerebras Inference потребовалось около трех секунд, а Fireworks - 20.
«Llama 3.1 405B на Cerebras является самой быстрой пограничной моделью в мире - в 12 раз быстрее, чем GPT-4o, и в 18 раз быстрее, чем Claude 3.5 Sonnet», - заявили в Cerebras. «Благодаря сочетанию открытого подхода Meta и передовой технологии выводов Cerebras, Llama 3.1-405B теперь работает более чем в 10 раз быстрее, чем закрытые пограничные модели».
Даже при увеличении размера запроса с 1 000 лексем до 100 000 лексем (запрос, состоящий как минимум из пары тысяч слов) Cerebras Inference, очевидно, работал со скоростью 539 лексем в секунду. Из пяти других сервисов, способных справиться с такой нагрузкой, лучший показал всего 49 жетонов в секунду.
Cerebras также похвасталась, что всего лишь один движок второго поколения Wafer Scale Engine превзошел суперкомпьютер Frontier в 768 раз в моделировании молекулярной динамики. Frontier был самым быстрым суперкомпьютером в мире до понедельника, когда был запущен суперкомпьютер El Capitan, оснащенный 9 472 процессорами Epyc от AMD.
Кроме того, чип Cerebras превзошел суперкомпьютер Anton 3 на 20 %, что является значительным достижением, учитывая, что Anton 3 был создан для молекулярной динамики; его производительность в 1,1 миллиона шагов моделирования в секунду также стала первым случаем, когда какой-либо компьютер преодолел барьер в миллион шагов моделирования.
Оригинал
Уникальность