ОТКРЫТЫЕ ТАБЛИЧНЫЕ ФОРМАТЫ В БАНКОВСКОЙ АНАЛИТИКЕ: ПРАКТИЧЕСКОЕ ИССЛЕДОВАНИЕ ICEBERG И PAIMON
🇷🇺 На русском
Для цитирования
Иевлев К.О., Сурпин В.П., Городничев М.Г. Открытые табличные форматы в банковской аналитике: практическое исследование Iceberg и Paimon // Информационно-экономические аспекты стандартизации и технического регулирования. 2026. № 1(88). С. 84–89.
Аннотация
Цифровизация бизнеса, особенно в таких динамичных и конкурентных сферах, как финтех, реклама и телеком, привела к необходимости обрабатывать огромные объемы гетерогенных данных, поступающих от независимых поставщиков. Практическая невозможность строгой координации обмена данными и потребность принимать данные «как есть» обусловили преобладание ELT-подхода и гибких data lake в первичных слоях, отодвинув традиционный ETL и строгие реляционные БД ближе к слою витрин данных. При этом привычная реляционная модель, SQL-семантика и потребность в ACID-гарантиях привели к появлению открытых табличных форматов и архитектуры lakehouse. В работе рассматривается применение Open Table Formats, типичных для lakehouse архитектуры, в аналитической платформе финансовой организации. Приводятся результаты двух экспериментов: первый эксперимент моделирует сопровождение витрины данных на таблице 1 ТБ (~10 млрд ключей) с последовательными SELECT/UPDATE по 10-50% записей. Сравниваются партицированный Parquet, Iceberg (copy-on-write и merge-on-read) и Paimon (merge-on-read).Исследование предоставляет практические рекомендации по выбору табличного формата для lakehouse-архитектур с учетом профиля нагрузки и операционных требований.
Ключевые слова
APACHE PAIMON
APACHE ICEBERG
DATA LAKEHOUSE
OLAP
COPY-ON-WRITE
MERGE-ON-READ
Об авторах
Иевлев Кирилл Олегович
Сурпин Вадим Павлович
Городничев Михаил Геннадьевич
🇬🇧 In English
OPEN TABLE FORMATS IN BANKING ANALYTICS: A PRACTICAL STUDY OF ICEBERG AND PAIMON
For citation
Ievlev K., Surpin V., Gorodnichev M. Open Table Formats In Banking Analytics: A Practical Study Of Iceberg And Paimon. Information and Economic Aspects of Standardization and Technical Regulation. 2026; 1(88): 84–89. (In Russ.).
Abstract
Business digitalization, particularly in dynamic and competitive sectors such as fintech, advertising, and telecommunications, has led to the necessity of processing massive volumes of heterogeneous data from independent providers. The practical impossibility of strict data exchange coordination and the need to accept data “as is” have resulted in the predominance of the ELT approach and flexible data lakes in primary layers, pushing traditional ETL and strict relational databases closer to the data mart layer. At the same time, the familiar relational model, SQL semantics, and the need for ACID guarantees have led to the emergence of open table formats and lakehouse architecture. This paper examines the application of Open Table Formats, typical for lakehouse architecture, in the analytical platform of a financial organization. The results of two experiments are presented: the first experiment models data mart maintenance on a 1 TB table (~10 billion keys) with sequential SELECT/UPDATE operations on 10-50% of records. Partitioned Parquet, Iceberg (copy-on-write and merge-on-read), and Paimon (merge-on-read) are compared. The study provides practical recommendations for selecting a table format for lakehouse architectures, taking into account workload profiles and operational requirements.
Keywords
APACHE PAIMON
APACHE ICEBERG
DATA LAKEHOUSE
OLAP
COPY-ON-WRITE
MERGE-ON-READ