• Реклама: 💰 Пополни свой портфель с минимальной комиссией на Transfer24.pro
  • Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 🐑 Моисей водил бесплатно. А мы платим, хотя тоже планируем работать 40 лет! Принимай участие в партнеской программе MMGP
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"
  • 💰 В данном разделе действует акция с оплатой за новые публикации
  • 📌 Внимание! Перед публикацией новостей ознакомьтесь с правилами новостных разделов

Популярный метод повышения эффективности ИИ имеет недостатки

АИ.jpg

Один из наиболее широко используемых методов повышения эффективности моделей ИИ, квантование, имеет ограничения — и отрасль может быстро к ним приблизиться.

В контексте ИИ квантование означает уменьшение количества бит — наименьших единиц, которые может обработать компьютер — необходимых для представления информации. Рассмотрим такую аналогию: когда кто-то спрашивает время, вы, вероятно, ответите «полдень», а не «ноль двенадцать ноль, одна секунда и четыре миллисекунды». Это квантование; оба ответа верны, но один немного точнее. Насколько точная информация вам действительно нужна, зависит от контекста.

Модели ИИ состоят из нескольких компонентов, которые можно квантовать — в частности, параметров, внутренних переменных, которые модели используют для прогнозирования или принятия решений. Это удобно, учитывая, что модели выполняют миллионы вычислений при запуске. Квантованные модели с меньшим количеством бит, представляющих их параметры, менее требовательны с математической точки зрения, а следовательно, и с точки зрения вычислений. (Чтобы было ясно, это отличается от процесса «дистилляции», который представляет собой более сложный и избирательный процесс обрезки параметров.)

Но квантование может иметь больше компромиссов, чем предполагалось ранее.

Постоянно сжимающаяся модель
Согласно исследованию исследователей из Гарварда, Стэнфорда, Массачусетского технологического института, Databricks и Карнеги-Меллона, квантованные модели работают хуже, если исходная, неквантованная версия модели обучалась в течение длительного периода на большом количестве данных. Другими словами, в определенный момент может быть лучше просто обучить меньшую модель, чем готовить большую.

Это может означать плохие новости для компаний ИИ, обучающих чрезвычайно большие модели (известные тем, что они улучшают качество ответов), а затем квантующих их в попытке сделать их обслуживание менее дорогим.

Эффект уже проявляется. Несколько месяцев назад разработчики и ученые сообщили, что квантование модели Llama 3 компании Meta, как правило, было «более вредным» по сравнению с другими моделями, возможно, из-за способа ее обучения.

«По моему мнению, для всех в ИИ самой большой стоимостью является и будет оставаться вывод, и наша работа показывает, что один важный способ его снижения не будет работать вечно», — сказал TechCrunch Танишк Кумар, студент-математик Гарварда и первый автор статьи.

Вопреки распространенному мнению, вывод модели ИИ — запуск модели, например, когда ChatGPT отвечает на вопрос — часто обходится в совокупности дороже, чем обучение модели. Например, Google потратила примерно 191 миллион долларов на обучение одной из своих флагманских моделей Gemini — безусловно, королевская сумма. Но если бы компания использовала модель для генерации всего лишь 50-словных ответов на половину всех поисковых запросов Google, она бы потратила около 6 миллиардов долларов в год.

Крупные лаборатории ИИ приняли модели обучения на огромных наборах данных, предполагая, что «масштабирование» — увеличение объема данных и вычислений, используемых при обучении, — приведет к созданию все более эффективного ИИ.

Например, Meta обучила Llama 3 на наборе из 15 триллионов токенов. (Токены представляют собой биты необработанных данных; 1 миллион токенов равен примерно 750 000 слов.) Предыдущее поколение, Llama 2, обучалось «всего» на 2 триллионах токенов.

Данные свидетельствуют о том, что масштабирование в конечном итоге приводит к убывающей отдаче; Anthropic и Google, как сообщается, недавно обучили огромные модели, которые не оправдали внутренних ожиданий эталонных показателей. Но мало что говорит о том, что отрасль готова осмысленно отойти от этих укоренившихся подходов к масштабированию.

Насколько точны, на самом деле?
Итак, если лаборатории неохотно обучают модели на меньших наборах данных, есть ли способ сделать модели менее восприимчивыми к деградации? Возможно. Кумар говорит, что он и соавторы обнаружили, что обучение моделей с «низкой точностью» может сделать их более надежными. Потерпите немного, пока мы немного углубимся.

«Точность» здесь относится к количеству цифр, которые числовой тип данных может точно представить. Типы данных — это наборы значений данных, обычно определяемые набором возможных значений и разрешенных операций; например, тип данных FP8 использует только 8 бит для представления числа с плавающей точкой.

Большинство моделей сегодня обучаются с 16-битной или «половинной точностью» и «квантуются после обучения» до 8-битной точности. Некоторые компоненты модели (например, ее параметры) преобразуются в формат с меньшей точностью за счет некоторой точности. Представьте себе, что вы выполняете математические действия с несколькими знаками после запятой, а затем округляете до ближайшей десятой, что часто дает вам лучшее из обоих миров.

Поставщики оборудования, такие как Nvidia, настаивают на более низкой точности для квантованного вывода модели. Новый чип Blackwell компании поддерживает 4-битную точность, в частности тип данных, называемый FP4; Nvidia представила это как благо для центров обработки данных с ограниченными памятью и питанием.

Но чрезвычайно низкая точность квантования может быть нежелательной. По словам Кумара, если только исходная модель не является невероятно большой с точки зрения количества параметров, точность ниже 7 или 8 бит может привести к заметному снижению качества.

Если все это кажется немного техническим, не волнуйтесь — так оно и есть. Но вывод заключается в том, что ИИ моделирует не до конца поняты, и известные сокращения, которые работают во многих видах вычислений, здесь не работают. Вы бы не сказали «полдень», если бы кто-то спросил, когда вы начали 100-метровый забег, верно? Конечно, это не так очевидно, но идея та же:

«Главный момент нашей работы заключается в том, что существуют ограничения, которые вы не можете наивно обойти», — заключил Кумар. «Мы надеемся, что наша работа добавит нюансов в обсуждение, которое часто стремится к все более низким значениям точности по умолчанию для обучения и вывода».

Кумар признает, что исследование его и его коллег было относительно небольшим — они планируют проверить его с большим количеством моделей в будущем. Но он считает, что по крайней мере одно понимание останется неизменным: когда дело доходит до снижения затрат на вывод, не бывает бесплатных обедов.

«Точность битов имеет значение, и она не бесплатна», — сказал он. «Вы не можете уменьшать ее вечно, не страдая при этом от моделей. Модели имеют конечную емкость, поэтому вместо того, чтобы пытаться втиснуть квадриллион токенов в небольшую модель, по моему мнению, гораздо больше усилий будет вложено в тщательную обработку и фильтрацию данных, чтобы в меньшие модели попадали только самые качественные данные. Я оптимистично настроен, что новые архитектуры, которые намеренно нацелены на то, чтобы сделать обучение с низкой точностью стабильным, будут важны в будущем».

Оригинал
Уникальность
 
Сверху Снизу