dlt (ou Data Load Tool) est un outil open-source qui permet de créer des ingestions de données. En tant que librairie Python, DLT est composable et ne nécessite pas d’architecture lourde, un simple pip install dlt suffit. Pour charger des données, il faut initialiser la source, fournir les credentials, et paramétrer les endpoints nécessaires. Le code est ensuite exécutable directement dans l’orchestrateur de votre choix. DLT s’intègre aussi bien dans les projets analytiques qu’en IA, pour l’ingestion de données nécessaire aux agents ou modèles plus traditionnels.
Par défaut, dlt est capable de charger les données dans DuckDB, mais il fonctionne également avec toutes les destinations standards. Sa légèreté en fait un outil à moindre coût pour la construction d’EL dans des data lakes ou data warehouses. L’ingestion peut être facilement lancée dans des containers Cloud Run ou même dans une CI/CD. Avec la standardisation d’Iceberg et le support de DuckDB, DLT facilite aussi le passage entre l’environnement de travail local et les environnements de production, simplifiant ainsi un processus souvent complexe.
DLT fournit également des contrats sémantiques (data contracts) qui se superposent aux différentes sources, permettant de générer de manière programmatique tout ce qui est en aval de l’ingestion.
Le point de vue MDN
L’ingestion de données a toujours été un sujet complexe, qu’il s’agisse d’outils custom ou d’outils sur étagère. dlt apporte une structure pour définir des ingestions en combinant les avantages des solutions sur étagère tout en facilitant leur personnalisation pour chaque cas d’usage. Grâce au combo dlt + DuckDB, il est désormais possible de mettre en place des ELT avec très peu de lignes de code.
Lorem ipsum dolor sit amet consectetur. Eu tristique a enim ut eros sed enim facilisis. Enim curabitur ullamcorper morbi ultrices tincidunt. Risus tristique posuere faucibus lacus semper.
En savoir plus