11

Standalone Apache Parquet

January 2025

Hold

Introduit en 2013, Apache Parquet est un format de fichier open source orienté colonnes, devenu standard pour le stockage et la gestion des données à grande échelle. Conçu pour optimiser les performances de lecture et d'écriture sur de grands ensembles de données tout en réduisant l'espace de stockage nécessaire, il a supplanté en data engineering les formats de fichiers plats comme le CSV.

Parquet présente de nombreux avantages :

  • Une compression significative des fichiers (facteur dix par rapport aux CSV),
  • Des performances élevées : 30x plus rapide que les CSV en lecture/écriture de requêtes analytiques,
  • La gestion des types de données complexes, notamment les structures imbriquées (listes, dictionnaires…),
  • Ainsi qu’une bonne intégration avec les principaux cloud providers et une compatibilité étendue avec de nombreux outils open source.

Toutefois, Parquet n'est pas idéal pour les écritures fréquentes ou le streaming de données en temps réel, où un format orienté lignes comme Avro est plus judicieux.

On préfèrera également s’appuyer sur des formats de tables comme Delta Lake ou Apache Iceberg pour garantir une meilleure gouvernance des données, une meilleure gestion des changements de structure des tables et l'intégrité des données en cas d'écritures concurrentes.

 

Le point de vue Theodo


Parquet reste une bonne technologie qui présente des avantages pour les workloads analytiques en raison de ses performances et de l'optimisation de son stockage. Notre positionnement en hold vise à marquer notre recommandation d’adopter des surcouches comme Iceberg pour bénéficier de capacités transactionnelles et de l’évolutivité des données.

 

Le point de vue MDN


Parquet est devenu le format de référence pour faire de l’analytique. Compressé, orienté colonne, avec une compatibilité étendue, il y a énormément de points positifs à utiliser Apache Parquet en 2024. Il est à préférer aux formats plats comme le CSV ou le JSON. Incontournable pour économiser de l’argent et gagner en performance. Le seul désavantage est que c’est moins pratique à ouvrir dans une interface graphique (sauf à utiliser DuckDB).

Notre point de vue

Le point de vue de notre partenaire

Related Blip

No items found.

Téléchargez votre

Radar Data
Radar Data
Radar Data

Travaillons ensemble

Lorem ipsum dolor sit amet consectetur. Eu tristique a enim ut eros sed enim facilisis. Enim curabitur ullamcorper morbi ultrices tincidunt. Risus tristique posuere faucibus lacus semper.

En savoir plus
Équipe en réunion

Nos Radars

No items found.
No items found.