Introduit en 2013, Apache Parquet est un format de fichier open source orienté colonnes, devenu standard pour le stockage et la gestion des données à grande échelle. Conçu pour optimiser les performances de lecture et d'écriture sur de grands ensembles de données tout en réduisant l'espace de stockage nécessaire, il a supplanté en data engineering les formats de fichiers plats comme le CSV.
Parquet présente de nombreux avantages :
Toutefois, Parquet n'est pas idéal pour les écritures fréquentes ou le streaming de données en temps réel, où un format orienté lignes comme Avro est plus judicieux.
On préfèrera également s’appuyer sur des formats de tables comme Delta Lake ou Apache Iceberg pour garantir une meilleure gouvernance des données, une meilleure gestion des changements de structure des tables et l'intégrité des données en cas d'écritures concurrentes.
Le point de vue Theodo
Parquet reste une bonne technologie qui présente des avantages pour les workloads analytiques en raison de ses performances et de l'optimisation de son stockage. Notre positionnement en hold vise à marquer notre recommandation d’adopter des surcouches comme Iceberg pour bénéficier de capacités transactionnelles et de l’évolutivité des données.
Le point de vue MDN
Parquet est devenu le format de référence pour faire de l’analytique. Compressé, orienté colonne, avec une compatibilité étendue, il y a énormément de points positifs à utiliser Apache Parquet en 2024. Il est à préférer aux formats plats comme le CSV ou le JSON. Incontournable pour économiser de l’argent et gagner en performance. Le seul désavantage est que c’est moins pratique à ouvrir dans une interface graphique (sauf à utiliser DuckDB).
Lorem ipsum dolor sit amet consectetur. Eu tristique a enim ut eros sed enim facilisis. Enim curabitur ullamcorper morbi ultrices tincidunt. Risus tristique posuere faucibus lacus semper.
En savoir plus