LlamaIndex представила LiteParse — открытую библиотеку для анализа пространственной структуры PDF-документов. Инструмент доступен как интерфейс командной строки и нативная библиотека TypeScript.
По информации компании, основной проблемой в системах Retrieval-Augmented Generation (RAG) является не сам языковой модель, а конвейер обработки данных. Разработчики сталкиваются с высокой задержкой и значительными затратами при преобразовании сложных PDF в формат, пригодный для анализа языковыми моделями.
LiteParse предназначена для упрощения этого процесса. Библиотека позволяет интегрировать парсинг PDF непосредственно в рабочие процессы агентов искусственного интеллекта.
Компания позиционирует решение как инструмент для снижения времени обработки документов в системах RAG. Инструмент поддерживает работу как через командную строку, так и через программный интерфейс TypeScript.
Решение входит в экосистему LlamaIndex, которая включает инструменты для управления данными в приложениях с искусственным интеллектом.
Источник: Marktechpost