28

Spark

January 2025

Hold

Spark est une solution open-source permettant de transformer de gros volumes de données en parallélisant les calculs. Avant 2009, la méthode standard de transformation de données dans l’écosystème Hadoop était "MapReduce". Spark a vu le jour en 2009 et s'est imposé comme plus rapide, évoluant ensuite pour devenir un système de calcul distribué indépendant de Hadoop.

La grande force de Spark réside dans son modèle d’exécution. Vous décrivez les transformations souhaitées sur vos données avec un DSL (domain-specific language), et lors de l’exécution, Spark se charge de construire un plan d’exécution optimisé pour ces transformations. Par exemple, Spark peut remonter un filtre situé en bas de la chaîne de transformations au début de l’exécution afin de ne charger que les données nécessaires.

Cependant, cette force est aussi sa faiblesse, car cela nécessite d’apprendre un DSL spécifique. Pour des optimisations plus poussées, il faut bien comprendre comment Spark construit son plan d’exécution.

C’est notamment le cas du mécanisme de shuffle, qui déplace les données entre les nœuds d’un cluster avant de les traiter. De plus, l’aspect distribué de Spark ne le rend pertinent que pour de gros volumes de données, là où lancer les transformations sur plusieurs machines en parallèle a du sens. Par exemple, le traitement d’un fichier CSV de quelques milliers de lignes peut prendre plusieurs minutes avec Spark, alors qu’il ne prendra que quelques secondes avec pandas.


Le point de vue Theodo


Nous recommandons de choisir Spark uniquement si vous avez un besoin de performance accru sur des transformations complexes impliquant de gros volumes de données (plusieurs téraoctets). Si ce n’est pas le cas, il vaut mieux utiliser le moteur de requête SQL de votre data warehouse, ce qui vous évitera d’avoir à monter en compétence sur une technologie complexe.

Notre point de vue

Le point de vue de notre partenaire

Related Blip

No items found.

Téléchargez votre

Radar Data
Radar Data
Radar Data

Travaillons ensemble

Lorem ipsum dolor sit amet consectetur. Eu tristique a enim ut eros sed enim facilisis. Enim curabitur ullamcorper morbi ultrices tincidunt. Risus tristique posuere faucibus lacus semper.

En savoir plus
Équipe en réunion

Nos Radars

No items found.
No items found.