Great Expectations est un framework open source en Python dédié à l’évaluation et à la surveillance de la qualité des données. Son intégration avec la plupart des outils du marché est simple et rapide, grâce à sa compatibilité avec de nombreuses sources de données et outils d'orchestration. De plus, la communauté contribue activement au développement de packages proposant des vérifications qualité préétablies.
Great Expectations peut se connecter aux principales technologies de bases de données (PostgreSQL, BigQuery, etc.) et de stockage (AWS S3, Google Cloud Storage, etc.). Il propose un système de logging et d'alerting pour les résultats des contrôles de qualité, offrant une meilleure visibilité sur l'état de la qualité des données.
Cependant, Great Expectations présente plusieurs limites importantes. Sa courbe d'apprentissage est abrupte en raison de concepts complexes à assimiler. La création de checks de qualité personnalisés est souvent ardue et peu intuitive, d'autant que la documentation reste insuffisante pour faciliter la prise en main. Par ailleurs, l'outil manque de fonctionnalités pour les contrôles inter-tables, réduisant significativement son champ d'application. Enfin, l'expérience utilisateur des rapports de qualité est perfectible, ce qui rend le suivi de l'évolution de la qualité complexe sur le long terme.
Le point de vue Theodo
Nous ne recommandons pas l’utilisation de Great Expectations en raison de ses limitations qui compliquent son adoption et son utilisation à grande échelle. Pour évaluer et surveiller la qualité des données, nous recommandons d'envisager des alternatives comme Elementary, en particulier si votre pipeline repose sur dbt.
Lorem ipsum dolor sit amet consectetur. Eu tristique a enim ut eros sed enim facilisis. Enim curabitur ullamcorper morbi ultrices tincidunt. Risus tristique posuere faucibus lacus semper.
En savoir plus