Компания EXO Labs написала подробную статью в блоге о работе Llama на Windows 98 и продемонстрировала довольно мощную модель большого языка ИИ (LLM), работающую на 26-летнем ПК с Windows 98 Pentium II, в коротком видеоролике в социальных сетях. В ролике показано, как древний Elonex Pentium II @ 350 МГц загружается в Windows 98, а затем EXO запускает свой собственный движок вывода на чистом языке C, основанный на Llama2.c Андрея Карпати, и просит LLM сгенерировать историю о Сонном Джо.
Удивительно, но он работает, причем история генерируется в очень приличном темпе. Вышеупомянутое впечатляющее достижение - это еще не конец игры для EXO Labs. Эта несколько загадочная организация вышла из режима секретности в сентябре с миссией «демократизировать доступ к ИИ». Ее основала команда исследователей и инженеров из Оксфордского университета. Вкратце, EXO считает, что горстка мегакорпораций, контролирующих ИИ, - это очень плохо для культуры, правды и других фундаментальных аспектов нашего общества.
Поэтому EXO надеется «Создать открытую инфраструктуру для обучения передовых моделей и дать возможность любому человеку запускать их в любом месте». Таким образом, обычные люди могут надеяться на обучение и запуск моделей ИИ практически на любом устройстве - и этот безумный подвиг ИИ на Windows 98 является тотемной демонстрацией того, что можно сделать с (сильно) ограниченными ресурсами.
Поскольку видео в твиттере довольно короткое, мы были благодарны EXO за то, что нашли запись в блоге о запуске Llama на Windows 98. Этот пост опубликован в четвертый день серии «12 дней EXO» (так что следите за новостями).
Как и следовало ожидать, для EXO не составило труда взять на eBay старый ПК с Windows 98 в качестве основы для этого проекта, однако пришлось преодолеть множество препятствий. EXO объясняет, что передача данных на старый Pentium II под маркой Elonex была непростой задачей, поэтому они прибегли к «старому доброму FTP» для передачи файлов через Ethernet-порт древней машины.
Компиляция современного кода для Windows 98 была, пожалуй, еще более сложной задачей. EXO была рада найти llama2.c Андрея Карпати, который можно кратко охарактеризовать как «700 строк чистого языка C, который может выполнять вывод на моделях с архитектурой Llama 2». С помощью этого ресурса и старой IDE и компилятора Borland C++ 5.02 (плюс несколько мелких доработок) код можно превратить в исполняемый файл, совместимый с Windows 98, и запустить его. Вот ссылка на GitHub на готовый код.
Один из создателей EXO, Алекс Хима, поблагодарил Андрея Карпати за его код, восхитившись его производительностью, которая составила «35,9 ток/сек на Windows 98» при использовании 260K LLM с архитектурой Llama. Стоит отметить, что Карпати ранее был директором по искусственному интеллекту в Tesla и входил в команду основателей OpenAI.
Конечно, 260-килобайтный LLM - это немного, но на древнем одноядерном ПК с частотой 350 МГц он работал вполне прилично. Согласно блогу EXO, переход на 15-Мбайт LLM привел к скорости генерации чуть более 1 ткм/с. Однако Llama 3.2 1B была леденяще медленной - 0,0093 ток/сек.
BitNet - более масштабный план
К этому моменту вы уже прекрасно понимаете, что речь идет не только о том, чтобы заставить LLM работать на машине с Windows 98. EXO завершает свою запись в блоге рассуждениями о будущем, которое, как она надеется, станет демократичным благодаря BitNet.
«BitNet - это архитектура трансформатора, использующая тернарные веса, - поясняет компания. Важно отметить, что при использовании этой архитектуры для модели с 7 параметрами требуется всего 1,38 ГБ памяти. Это может заставить скрипеть 26-летний Pentium II, но для современного оборудования или даже для устройств десятилетней давности это ничтожно мало».
EXO также подчеркивает, что BitNet работает на базе процессора, что позволяет избежать дорогостоящих требований к GPU. Более того, утверждается, что этот тип модели на 50 % эффективнее, чем модели с полной точностью, и может работать с моделью с 100 параметрами на одном процессоре со скоростью человеческого чтения (около 5-7 тк/сек).
Прежде чем мы продолжим, пожалуйста, обратите внимание, что EXO все еще ищет помощи. Если вы тоже хотите, чтобы в будущем ИИ не оказался заперт в массивных дата-центрах, принадлежащих миллиардерам и мегакорпорациям, и считаете, что можете внести свой вклад, вы можете связаться с нами.
Для более непринужденного общения с EXO Labs они ведут ретро-канал Discord, где обсуждают запуск LLM на старом оборудовании, таком как старые Mac, Gameboys, Raspberry Pis и т.д.
Оригинал
Уникальность