Pandas s’est imposé ces dernières années pour l’analyse et la transformation des données tabulaires en Python. Il atteint ses limites sur les gros volumes de données car ses traitements sont non parallélisables et la donnée traitée doit entièrement être chargée en mémoire.
Polars est une bibliothèque open-source de Dataframes écrite en Rust, rendue publique en 2021. Elle dépasse les limites de Pandas en rendant possible d’effectuer des calculs parallélisables. Le lazy evaluation améliore encore plus la performance en optimisant les transformations et les calculs par batch pour gérer des volumes de données plus grand que la mémoire.
Sa syntaxe expressive permet une grande variété de transformations, comparables à celles réalisables avec Pandas. Passer de Pandas à Polars est assez simple car Polars reprend la syntaxe des fonctions et méthodes de Pandas.
Cependant, Polars est récent et n’a pas encore la richesse de Pandas. Néanmoins, grâce à l’implémentation du format de données Arrow, il est facile de transformer un dataframe polars en Pandas et ainsi de rebasculer vers Pandas pour des traitements spécifiques.
NOTRE POINT DE VUE
Nous recommandons donc d’utiliser Polars au lieu de Pandas pour tout nouveau projet utilisant des DataFrames et de ne conserver cette dernière librairie qu’en contexte de code legacy.
Lorem ipsum dolor sit amet consectetur. Eu tristique a enim ut eros sed enim facilisis. Enim curabitur ullamcorper morbi ultrices tincidunt. Risus tristique posuere faucibus lacus semper.
En savoir plus