Polars est une bibliothèque open-source de Dataframes (transformation et analyse de données) écrite en Rust mais également disponible sur Python, passée en version majeure en 2024. Elle dépasse les limites calculatoires et mémoires de Pandas en permettant des calculs multithreads, des lazy evaluations et des calculs par batch, ce qui rend possible la gestion de volumes de données plus grands que la mémoire disponible.
En plus de ces capacités, Polars offre deux avantages principaux :
Cependant, le principal frein à l’utilisation de Polars est sa nouveauté. Pandas est actuellement si dominant sur le processing in-memory que, pour des petits volumes de données, le gain de performance est marginal et le coût d’entrée, même léger, est perçu comme trop lourd. Pour des jeux de données plus importants, le marché tend à privilégier des technologies SQL comme DBT, en raison de leur universalité et des optimisations de performance qu'elles offrent. Cela est également vrai dans le domaine du Data et Analytics Engineering, où les puissances de calcul sont pensées pour exécuter du SQL.
Le point de vue Theodo
Chez Theodo Data & IA, nous pensons que Polars est un très bon outil d’analyse ad hoc pour les Data Scientists ou Analysts sur des volumes relativement faibles. Toutefois, dans l’ingénierie des pipelines de données, où Python est voué à disparaître au profit du SQL plus universel, nous ne voyons pas Polars devenir un équivalent de DBT.
Lorem ipsum dolor sit amet consectetur. Eu tristique a enim ut eros sed enim facilisis. Enim curabitur ullamcorper morbi ultrices tincidunt. Risus tristique posuere faucibus lacus semper.
En savoir plus