УДК 004.023:519.16 EDN: WWALNW e-Library ID: 89068829

ОТКРЫТЫЕ ТАБЛИЧНЫЕ ФОРМАТЫ В БАНКОВСКОЙ АНАЛИТИКЕ: ПРАКТИЧЕСКОЕ ИССЛЕДОВАНИЕ ICEBERG И PAIMON

🇷🇺 На русском

Для цитирования

Иевлев К.О., Сурпин В.П., Городничев М.Г. Открытые табличные форматы в банковской аналитике: практическое исследование Iceberg и Paimon // Информационно-экономические аспекты стандартизации и технического регулирования. 2026. № 1(88). С. 84–89.

Аннотация

Цифровизация бизнеса, особенно в таких динамичных и конкурентных сферах, как финтех, реклама и телеком, привела к необходимости обрабатывать огромные объемы гетерогенных данных, поступающих от независимых поставщиков. Практическая невозможность строгой координации обмена данными и потребность принимать данные «как есть» обусловили преобладание ELT-подхода и гибких data lake в первичных слоях, отодвинув традиционный ETL и строгие реляционные БД ближе к слою витрин данных. При этом привычная реляционная модель, SQL-семантика и потребность в ACID-гарантиях привели к появлению открытых табличных форматов и архитектуры lakehouse. В работе рассматривается применение Open Table Formats, типичных для lakehouse архитектуры, в аналитической платформе финансовой организации. Приводятся результаты двух экспериментов: первый эксперимент моделирует сопровождение витрины данных на таблице 1 ТБ (~10 млрд ключей) с последовательными SELECT/UPDATE по 10-50% записей. Сравниваются партицированный Parquet, Iceberg (copy-on-write и merge-on-read) и Paimon (merge-on-read).Исследование предоставляет практические рекомендации по выбору табличного формата для lakehouse-архитектур с учетом профиля нагрузки и операционных требований.

Ключевые слова

APACHE PAIMON APACHE ICEBERG DATA LAKEHOUSE OLAP COPY-ON-WRITE MERGE-ON-READ

Об авторах

Иевлев Кирилл Олегович

Иевлев Кирилл Олегович — Аспирант, ассистент кафедры «Интеллектуальный анализ данных», ФГБОУ ВО «Московский технический университет связи и информатики», ( Москва, Россия )

Сурпин Вадим Павлович

Сурпин Вадим Павлович — Кандидат технических наук, Исполнительный директор, Сбербанк России, ( Москва, Россия )

Городничев Михаил Геннадьевич

Городничев Михаил Геннадьевич — Кандидат технических наук, Доцент, Декан факультета «Информационные технологии», заведующий кафедрой «Математическая кибернетика и информационные технологии», ФГБОУ ВО «Московский технический университет связи и информатики», ( Москва, Россия )

🇬🇧 In English

OPEN TABLE FORMATS IN BANKING ANALYTICS: A PRACTICAL STUDY OF ICEBERG AND PAIMON

For citation

Ievlev K., Surpin V., Gorodnichev M. Open Table Formats In Banking Analytics: A Practical Study Of Iceberg And Paimon. Information and Economic Aspects of Standardization and Technical Regulation. 2026; 1(88): 84–89. (In Russ.).

Abstract

Business digitalization, particularly in dynamic and competitive sectors such as fintech, advertising, and telecommunications, has led to the necessity of processing massive volumes of heterogeneous data from independent providers. The practical impossibility of strict data exchange coordination and the need to accept data “as is” have resulted in the predominance of the ELT approach and flexible data lakes in primary layers, pushing traditional ETL and strict relational databases closer to the data mart layer. At the same time, the familiar relational model, SQL semantics, and the need for ACID guarantees have led to the emergence of open table formats and lakehouse architecture. This paper examines the application of Open Table Formats, typical for lakehouse architecture, in the analytical platform of a financial organization. The results of two experiments are presented: the first experiment models data mart maintenance on a 1 TB table (~10 billion keys) with sequential SELECT/UPDATE operations on 10-50% of records. Partitioned Parquet, Iceberg (copy-on-write and merge-on-read), and Paimon (merge-on-read) are compared. The study provides practical recommendations for selecting a table format for lakehouse architectures, taking into account workload profiles and operational requirements.

Keywords

APACHE PAIMON APACHE ICEBERG DATA LAKEHOUSE OLAP COPY-ON-WRITE MERGE-ON-READ

About the authors

Ievlev K. О.

Ievlev K. О. — Graduate student, Lecturer assistant at the department of data mining, Moscow Technical University of Communications and Informatics, ( Moscow, Russia )

Surpin V. P.

Surpin V. P. — Doctor of Technical Sciences, Executive Director, Sberbank, ( Moscow, Russia )

Gorodnichev M. G.

Gorodnichev M. G. — Doctor of Technical Sciences, Associate professor, Dean of Information Technologies Faculty, Head of Mathematical Cybernetics and Information Technologies Department, Technical University of Communications and Informatics, ( Moscow, Russia )