Apache Iceberg est un format de table open-source créé chez Netflix. Son objectif principal est de résoudre les problèmes de gestion des grands ensembles de données stockées sur des systèmes de fichiers distribués comme S3 ou HDFS. Iceberg a été créé pour s’affranchir des limitations de formats de table traditionnels comme Hive, facilitant les opérations complexes de modification et d'accès aux données, tout en garantissant une meilleure isolation des transactions, en raison de :
• sa compatibilité native avec le SQL pour la lecture/écriture
• sa capacité à supporter des évolutions complètes de schéma
• sa capacité à gérer des datasets massifs jusqu’à l’échelle du pétaoctet
• sa granularité très fine sur les versions avec les notions de timetravel et rollback
• sa garantie de transactions ACID dans un environnement multi-utilisateurs
• son système de partitionnement et de compaction, évolutif et performant à la lecture. Iceberg permet véritablement d’adopter le paradigme du datalakehouse, qui consiste à structurer son datalake pour y exploiter directement ses données.
Il peut cependant rendre les pipelines de données plus complexes, notamment pour la configuration, la gestion des partitions et la maintenance, surtout pour les équipes peu habituées à ce format. Son adoption peut nécessiter une phase d'apprentissage intense pour les organisations qui n'ont pas encore une maturité suffisante dans la gestion de datalakes.
LE POINT DE VUE MDN
Iceberg est au cœur des tendances en 2024, initialement créé chez Netflix, le format de tables open-source est en train de s’imposer en tant que standard interopérable de fichier pour gérer des tables dans les architectures data lakes. Si vous êtes en train de créer votre data lake aujourd’hui, vous devez vous y intéresser sans réfléchir.
LE POINT DE VUE THEODO
Chez Theodo nous pensons qu’Iceberg est une bonne solution pour optimiser performance et stockage en cas de forte volumétrie. Il nous semble prendre l’ascendant sur les alternatives comme Delta Lake ou Apache Hudi par sa flexibilité dans l’évolution de schéma et de partitions, mais aussi une meilleure intégration dans les architectures modernes telles que BigQuery ou Snowflake.
Lorem ipsum dolor sit amet consectetur. Eu tristique a enim ut eros sed enim facilisis. Enim curabitur ullamcorper morbi ultrices tincidunt. Risus tristique posuere faucibus lacus semper.
En savoir plus