12

Airflow

January 2025

Adopt

Gérer des flux de données fait partie des tâches du data scientist (préparation de données, lancement de construction de modèle). Or cette gestion est devenue complexe, montrant les limites des outils classiques d’orchestration comme CRON. En 2014, Airbnb a créé Airflow en réponse à cette complexité croissante. Airflow est une librairie Python open-source pour l’orchestration de tâches qui permet la création, le déploiement et le suivi de workflows.

Airflow modélise les flux de données complexes sous forme de graphe de tâches. Un ordonnanceur planifie l’exécution des tâches en fonction de leurs dépendances. Une interface web offre une vue d’ensemble, et la multitude de types de tâche qu’il est possible d’exécuter offre une flexibilité manifeste. Toutes ces fonctionnalités contribuent à simplifier l’automatisation des processus de traitement des données, faisant d’Airflow une technologie très utilisée aujourd’hui.

En data science, on pourrait être tenté de mettre en place un enchaînement d’étapes tel que pré-traiter un dataset, lancer l’entraînement d’un modèle, évaluer ses performances, et envoyer les résultats avec des scripts Bash, complexes à maintenir et utiliser. L’utilisation d’Airflow pour un tel cas d’usage offre une meilleure maintenabilité par les outils de monitoring et de gestion des erreurs disponibles.

Il existe plusieurs alternatives à Airflow pour des problématiques plus spécifiques. Par exemple, Dagster permet de communiquer de la donnée entre deux tâches sans passer par un service de sauvegarde de données externes (table, bucket). Kubeflow Pipelines est aussi une alternative intéressante, car elle vient avec des opérateurs pré-configurés pour le Machine Learning (un pour l’entraînement des modèles et un pour leur déploiement sur Kubernetes), mais son focus sur les problématiques de ML induit une communauté plus réduite. Enfin, la librairie DVC offre une brique pour définir et exécuter des pipelines, très pratique dans un contexte d’expérimentation pour son intégration avec le tracking d’expériences, mais pas adaptée à une exécution en production.

 

NOTRE POINT DE VUE

Aujourd’hui, nous recommandons Airflow pour une orchestration robuste de tâches hétérogènes, incluant des pipelines de Machine Learning en production. Lors de l’itération sur le modèle pendant le développement, nous préférons des outils comme DVC qui apportent de meilleures features pour le suivi des expérimentations.

Notre point de vue

Le point de vue de notre partenaire

Related Blip

No items found.

Téléchargez votre

Radar Data
Radar Data
Radar Data

Travaillons ensemble

Lorem ipsum dolor sit amet consectetur. Eu tristique a enim ut eros sed enim facilisis. Enim curabitur ullamcorper morbi ultrices tincidunt. Risus tristique posuere faucibus lacus semper.

En savoir plus
Équipe en réunion

Nos Radars

No items found.
No items found.