Детальная информация

Название A page-based approach for storing vector embeddings // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 2. — С. 45-55
Авторы Tomilov N. A. ; Turov V. P.
Выходные сведения 2025
Коллекция Общая коллекция
Тематика Вычислительная техника ; Программирование ЭВМ. Компьютерные программы. Программотехника ; compression of vector representations ; vector representations (programming) ; data storage formats ; file compression ; datasets ; data clustering ; compression algorithms ; сжатие векторных представлений ; векторные представления (программирование) ; форматы хранения данных ; сжатие файлов ; наборы данных ; кластеризация данных ; алгоритмы сжатия
УДК 004.41/.42
ББК 32.973-018
Тип документа Статья, доклад
Тип файла PDF
Язык Английский
DOI 10.18721/JCSTCS.18204
Права доступа Свободный доступ из сети Интернет (чтение, печать, копирование)
Дополнительно Новинка
Ключ записи RU\SPSTU\edoc\77151
Дата создания записи 15.10.2025

Разрешенные действия

Прочитать Загрузить (0,5 Мб)

Группа Анонимные пользователи
Сеть Интернет

This study proposes a page-based approach to organize the storage for vector embeddings combined with the use of general-purpose lossless compression algorithms. The proposed approach organizes vector embeddings into pages of a configurable number of entries that contain vector embeddings and all necessary metainformation, and then the page files are compressed using general-purpose compression algorithms. This approach allows configuring page size and specific compression algorithm, to balance retrieval speed and storage efficiency. Experiments on three datasets, including PyEmb-50GB with more than 28 million dense vector embeddings, showed that the proposed solution reduces the occupied disk space by 14-40% compared to existing storage formats, such as ORC and Parquet, and up to two times compared to SQLite and H2. In addition, the suggested approach demonstrates a comparable to SQLite and H2 vector retrieval time, which is also a hundred times faster than ORC and Parquet. The results indicate that increasing the page size logarithmically reduces the storage size, while linearly increasing retrieval time. The proposed storage format supports thread-safe vector access, reducing both the necessary disk space and retrieval time, making it a robust solution for large-scale vector data management. It can also be used in approximate nearest neighbor search, provided the correct way of sharding vector embeddings between pages.

В данном исследовании предложен страничный подход к организации хранения векторных представлений в сочетании с использованием универсальных алгоритмов сжатия без потерь. Предложенный подход организует векторные представления в страницы из конфигурируемого числа записей, хранящих векторные представления и необходимую метаинформацию, после чего сжимает файлы страниц алгоритмами сжатия общего назначения. Такой подход позволяет задавать настраиваемый размер страницы и выбирать необходимый алгоритм сжатия, обеспечивая баланс между скоростью извлечения данных и эффективностью использования дискового пространства. Эксперименты на трех наборах данных, включая PyEmb-50GB с более чем 28 миллионами плотных векторных представлений, показали, что предложенное решение уменьшает занимаемый объем дискового пространства на 14-40% по сравнению с существующими форматами хранения, такими как ORC и Parquet, и до двух раз по сравнению с SQLite и H2. Помимо этого, предложенное решение демонстрирует сопоставимое с SQLite и H2 и на два порядка меньшее по сравнению с ORC и Parquet время извлечения векторного представления. Результаты демонстрируют, что увеличение размера страницы логарифмически снижает объем хранилища, при этом время извлечения данных увеличивается линейно. Предложенный формат хранения обеспечивает потокобезопасный доступ к векторным представлениям, уменьшая занимаемое дисковое пространство и время доступа. Это делает его надежным решением для управления большими объемами векторных данных. Формат также может быть использован для задач поиска приблизительных ближайших соседей при корректном распределении векторных представлений по страницам.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать Загрузить
Интернет Все

Количество обращений: 32 
За последние 30 дней: 32

Подробная статистика