Одна из главных особенностей моделей ИИ с открытым исходным кодом DeepSeek заключается в том, что их можно запускать локально, используя относительно недорогое оборудование, например Raspberry Pi.
Как выяснилось, модели DeepSeek V3 и R1 можно запускать даже на графических процессорах Moore Threads, разработанных в Китае, сообщает ITHome. Если это правда, то это большое достижение для DeepSeek, разработчика оборудования и Китая, так как это потенциально открывает новые двери для Moore Threads и уменьшает зависимость DeepSeek и Китая от оборудования Nvidia.
По сообщениям Moore Threads, она успешно развернула дистиллированную модель DeepSeek-R1-Distill-Qwen-7B на собственной клиентской видеокарте MTT S80 и графических картах MTT S4000 класса дата-центра. Для достижения «высокой» производительности компания использовала легкий фреймворк Ollama, позволяющий запускать большие языковые модели непосредственно на компьютерах под управлением MacOS, Linux и Windows, а также оптимизированный механизм вывода.
Хотя в отчете говорится об «отличной» и «высокой» производительности при описании работы MTT S80 и MTT S4000 с дистиллированной моделью DeepSeek-R1-Distill-Qwen-7B, в нем не указываются реальные цифры производительности и не проводится сравнение с другим оборудованием. В связи с этим оценить заявленные характеристики невозможно. Более того, учитывая тот факт, что MTT S80 практически не доступен за пределами Китая, проверить их невозможно.
Ollama поддерживает такие модели, как Llama 3.3, DeepSeek-R1, Phi-4, Mistral и Gemma 2, обеспечивая их эффективное локальное выполнение без использования облачных сервисов. Ollama разрабатывается в основном для macOS и использует Metal для ускорения GPU Apple, CUDA для ускорения GPU Nvidia и ROCm для ускорения GPU AMD.
Официально Ollama не поддерживает GPU Moore Threads, но компания утверждает, что ее графические процессоры могут выполнять код, скомпилированный для GPU CUDA. Полученные результаты подтвердили, что графические процессоры Moore Threads действительно совместимы с CUDA и подходят для рабочих нагрузок ИИ, особенно в приложениях на китайском языке.
Для дальнейшего повышения производительности Moore Threads использовала собственный движок вывода с оптимизацией вычислений и улучшенным управлением памятью. Такая программно-аппаратная интеграция значительно повышает производительность вычислений и эффективность использования ресурсов, а также обеспечивает плавный процесс развертывания и поддержку будущих моделей ИИ, говорится в отчете. Конечно, речь идет о дистиллированной модели, поэтому пока мы не можем сравнить производительность GPU Moore Threads с производительностью решений от AMD, Apple или Nvidia.
Оригинал
Уникальность