BigQuery est l’entrepôt de données entièrement géré de Google Cloud. Il permet le stockage et l’analyse interactive massive de grands ensembles de données. C’est le centre névralgique analytics de la proposition. Les principales alternatives que nous utilisons sont :
• Amazon Redshift, le précurseur
• Snowflake • Azure Synapse
• Databricks
BigQuery est une solution complète et efficace, largement adoptée, mais l’offre est aussi très proche de ses principaux concurrents.
Le classement en termes de performance dépend des conditions dans lesquelles le benchmark a été effectué, alors que l’avantage est cependant du côté de BigQuery et Snowflake en nombre de fonctionnalités. Le choix dépendra d’un ensemble de critères liés aux contraintes et à l’usage : cela ne se limitera pas à l’aspect data warehouse, mais englobera tous les besoins en infrastructure. La force de BigQuery réside dans sa simplicité d’utilisation et sa flexibilité. La tarification à la demande est la tarification par défaut : le montant de la facture de compute dépend de la quantité de données parcourues dans les tables en entrée de chaque requête. La puissance allouée et le coût s’ajustent en fonction des requêtes.
C’est aussi le risque d’une facture hors de contrôle, mais Google met à disposition les outils permettant la mise en place de quotas, de dashboards de suivi et d’alerting. Pour garder la maîtrise du budget et un bon niveau de performance, il faut veiller à coupler ces mesures avec le respect de bonnes pratiques et d’optimisations. Par ailleurs, pour une meilleure prédictibilité, il est aussi possible d’opter pour la tarification par capacité, à condition que le besoin soit stabilisé et qu’une équipe puisse opérer les réservations de slots. Côté machine learning, il permet de créer, d’entraîner et d’exécuter des modèles, et BigQuery Dataframes fournit une API compatible pandas pour l’analytics et une API scikit-learn-like.
Côté BI, l’espace de travail permet d’accéder directement à des visualisations Looker Studio. Enfin, BigQuery, comme ses concurrents, évolue constamment et suit les tendances du marché, tout en s’ouvrant de plus en plus à l’extérieur, notamment avec les tables BigLakes qui permettent le support des formats Delta Lake, Iceberg et Hudi. Avec la fonctionnalité Omni il est aussi possible d’exécuter des requêtes sur des sources externes telles qu’Amazon S3 ou Azure Blob storage.
LE POINT DE VUE MDN
Très bonne technologie de data warehouse similaire à Snowflake dans l'approche. Pour l'instant limité à l'écosystème GCP. Permet de traiter les données disponibles sans gestion d'index sur les tables, mais offre des possibilités de configuration plus poussées dans certains cas. Facturation à la query (dans ce dernier cas, attention au budget) + stockage des tables + ingestion.
LE POINT DE VUE THEODO
Nous recommandons BigQuery pour sa flexibilité, la richesse des fonctionnalités et ses possibilités en matière de BI et de ML. Il est adapté pour traiter des petits comme des grands volumes de données et il s’intègre aussi parfaitement avec les autres services Google Cloud. Il peut être un bon argument pour privilégier ce cloud provider.
Lorem ipsum dolor sit amet consectetur. Eu tristique a enim ut eros sed enim facilisis. Enim curabitur ullamcorper morbi ultrices tincidunt. Risus tristique posuere faucibus lacus semper.
En savoir plus