Google внедряет в свой API Gemini функцию, которая, как утверждает компания, сделает ее новейшие модели искусственного интеллекта дешевле для сторонних разработчиков.
Google называет эту функцию «неявным кэшированием» и утверждает, что она может обеспечить 75 % экономии на «повторяющемся контексте», передаваемом моделям через Gemini API. Она поддерживает модели Gemini 2.5 Pro и 2.5 Flash от Google.
Это, вероятно, станет приятной новостью для разработчиков, поскольку стоимость использования пограничных моделей продолжает расти.
Кэширование, широко распространенная практика в индустрии ИИ, позволяет повторно использовать часто используемые или предварительно вычисленные данные из моделей, чтобы сократить вычислительные требования и затраты. Например, в кэше могут храниться ответы на вопросы, которые пользователи часто задают модели, что избавляет модель от необходимости заново создавать ответы на один и тот же запрос.
Ранее Google предлагал кэширование подсказок для моделей, но только явное, то есть разработчикам приходилось самим определять наиболее частые подсказки. Хотя экономия средств должна была быть гарантирована, явное кэширование подсказок обычно требовало много ручной работы.
Некоторые разработчики были недовольны тем, как Google реализовала явное кэширование в Gemini 2.5 Pro, что, по их словам, могло привести к неожиданно большим счетам за API. Жалобы достигли ажиотажа на прошлой неделе, что заставило команду Gemini извиниться и пообещать внести изменения.
В отличие от явного кэширования, неявное кэширование происходит автоматически. Включенное по умолчанию в моделях Gemini 2.5, оно обеспечивает экономию средств, если запрос API Gemini к модели попадает в кэш.
«[Когда вы отправляете запрос к одной из моделей Gemini 2.5, если запрос имеет общий префикс с одним из предыдущих запросов, то он может попасть в кэш», - объясняет Google в своем блоге. «Мы динамически передадим экономию обратно вам».
Согласно документации Google для разработчиков, минимальное количество маркеров для неявного кэширования составляет 1 024 для 2.5 Flash и 2 048 для 2.5 Pro, что не так уж и много, а значит, не должно потребоваться много усилий, чтобы запустить автоматическую экономию. Токены - это необработанные биты данных, с которыми работают модели, причем тысяча токенов эквивалентна примерно 750 словам.
Учитывая, что последние заявления Google об экономии средств за счет кэширования не оправдались, в этой новой функции есть несколько областей, где нужно быть осторожным с покупателями. Например, Google рекомендует разработчикам сохранять повторяющийся контекст в начале запросов, чтобы увеличить шансы на неявное попадание в кэш. Контекст, который может меняться от запроса к запросу, следует добавлять в конец, говорят в компании.
Кроме того, Google не предоставила никаких сторонних подтверждений того, что новая система неявного кэширования обеспечит обещанную автоматическую экономию. Так что нам предстоит узнать, что скажут первые пользователи.
Оригинал
Уникальность