Theodo

January 2025

Hold

Introduit en 2013, Apache Parquet est un format de fichier open source orienté colonnes, devenu standard pour le stockage et la gestion des données à grande échelle. Conçu pour optimiser les performances de lecture et d'écriture sur de grands ensembles de données tout en réduisant l'espace de stockage nécessaire, il a supplanté en data engineering les formats de fichiers plats comme le CSV.

Parquet présente de nombreux avantages :

Une compression significative des fichiers (facteur dix par rapport aux CSV),
Des performances élevées : 30x plus rapide que les CSV en lecture/écriture de requêtes analytiques,
La gestion des types de données complexes, notamment les structures imbriquées (listes, dictionnaires…),
Ainsi qu’une bonne intégration avec les principaux cloud providers et une compatibilité étendue avec de nombreux outils open source.

Toutefois, Parquet n'est pas idéal pour les écritures fréquentes ou le streaming de données en temps réel, où un format orienté lignes comme Avro est plus judicieux.

On préfèrera également s’appuyer sur des formats de tables comme Delta Lake ou Apache Iceberg pour garantir une meilleure gouvernance des données, une meilleure gestion des changements de structure des tables et l'intégrité des données en cas d'écritures concurrentes.

Le point de vue Theodo

Parquet reste une bonne technologie qui présente des avantages pour les workloads analytiques en raison de ses performances et de l'optimisation de son stockage. Notre positionnement en hold vise à marquer notre recommandation d’adopter des surcouches comme Iceberg pour bénéficier de capacités transactionnelles et de l’évolutivité des données.

Le point de vue MDN

Parquet est devenu le format de référence pour faire de l’analytique. Compressé, orienté colonne, avec une compatibilité étendue, il y a énormément de points positifs à utiliser Apache Parquet en 2024. Il est à préférer aux formats plats comme le CSV ou le JSON. Incontournable pour économiser de l’argent et gagner en performance. Le seul désavantage est que c’est moins pratique à ouvrir dans une interface graphique (sauf à utiliser DuckDB).

Standalone Apache Parquet

Hold

Notre point de vue

Le point de vue de notre partenaire

Related Blip

Téléchargez votre

Travaillons ensemble

Nos Radars

Standalone Apache Parquet

Hold

Notre point de vue

Le point de vue de notre partenaire

Related Blip

Téléchargez votre

Travaillons ensemble

Nos Radars

Paramètres des cookies

Paramètres des cookies