Pour Gerrit Kazmaier, la distinction entre les bases de données gérées et les lacs de données n’a jamais eu beaucoup de sens, et elle a encore moins de sens aujourd’hui, car les données s’accumulent comme des montagnes en flèche poussées vers le haut par les forces tectoniques.
« Cette distinction n’a jamais été utile », a déclaré Kazmaier, directeur général des bases de données, de l’analyse de données et de Looker chez Google Cloud, cette semaine lors d’une réunion virtuelle avec des journalistes et des analystes. « C’était une nécessité technique car les volumes de données ne cessaient de croître et il devenait trop compliqué et coûteux de les gérer dans les technologies de stockage de données traditionnelles. »
Au fur et à mesure que la quantité de données augmentait, les organisations se tournaient vers les entrepôts de données. Au fur et à mesure que les volumes augmentaient – et avec des pourcentages plus élevés de données non structurées – ils ont commencé à intégrer des lacs de données pour compléter leurs entrepôts de données.
« Cela a créé un besoin obsessionnel de stocker de grandes quantités de données dans différents entrepôts à grande échelle à un coût relativement faible », a déclaré Kazmaier. « C’était l’entrée du mouvement du lac de données. Mais cela a coûté cher. Cela a coûté cher en termes de cohérence, de sécurité et de facilité de gestion pour toutes ces organisations qui ont essayé d’innover en plus des données, mais qui ont trouvé qu’il ne s’agissait en fin de compte que d’un marécage de données. »
Il a également créé des silos de données distincts au sein de l’environnement informatique que les entreprises devaient gérer, un casse-tête que d’autres fournisseurs, de Hewlett Packard Entreprise et Dell Technologies à Stockage pur et Hitachi Vantara, essaient de résoudre. Plus tôt cette année, nous a écrit à propos d’une startup appelée Onehouse qui a émergé de la furtivité avec un plan visant à tirer parti de l’open source Hudi pour apporter des fonctionnalités de base de données et d’entrepôt de données aux lacs de données, créant des lavoirs capables d’héberger et de gérer des données structurées, semi-structurées et non structurées.
Google Cloud cherche à faire quelque chose de similaire. Lors de son Data Cloud Summit cette semaine, la société dévoile BigLake, unifiant les entrepôts de données et les lacs de données pour permettre aux organisations de stocker, gérer et analyser leurs données via une seule copie de données sans avoir à les dupliquer ou à les déplacer ou à se soucier du format ou du système de stockage sous-jacent.
BigLake étend les fonctions d’entrepôt de données BigQuery de Google Cloud aux lacs de données sur Google Cloud Storage, utilise une interface API pour un meilleur contrôle d’accès sur Google Cloud et les formats ouverts, tels que Parquet, et les moteurs de traitement open source, comme Apache Spark. Il élimine ce que Kazmaier a appelé la « séparation artificielle entre les entrepôts gérés et les lacs de données ».
BigLake, qui est disponible en préversion, est l’une des nombreuses nouvelles offres et améliorations que Google Cloud déploie lors de l’événement qui tirent parti du travail que l’organisation a accompli au fil des ans avec des outils de données tels que BigQuery, Vertex AI – un ensemble de services permettant aux entreprises de créer et de gérer des charges de travail d’apprentissage automatique – le service de gestion et de stockage de bases de données SQL distribuées Spanner et la plate-forme d’aide à la décision Looker.
Tout cela, ainsi que de nouvelles offres telles que le programme de migration de bases de données et les mises à jour de ses programmes de partenariat, visent à permettre aux entreprises de tirer plus facilement une plus grande valeur commerciale des montagnes de données qu’elles créent. Google Cloud est le Troisième plus grand fournisseur de cloud au monde avec environ 10 % des revenus mondiaux, à la traîne par rapport à Amazon Web Services (avec environ 33 %) et Microsoft Azure (environ 22 %).
Relever les défis liés aux données – non seulement les stocker et les gérer, mais aussi les déplacer, les traiter, les analyser et les sécuriser – peut aider Google Cloud à continuer d’accélérer ses efforts pluriannuels pour obtenir un une plus grande présence dans l’entreprise. La société d’études de marché Statista prévoit que plus de 180 zettaoctets de données sera créé en 2025.
« Les données sont à peu près en tête de l’ordre du jour de tous les cadres supérieurs de cette planète », a déclaré Kazmaier. « Nous pensons que pour se transformer, vous ne pouvez pas appliquer des technologies obsolètes, des architectures obsolètes et des idées obsolètes pour libérer le potentiel illimité que les données détiennent vraiment. … Les données d’aujourd’hui sont multi-formats, elles sont en streaming et au repos, elles sont à travers les centres de données et même à travers les clouds aujourd’hui. Une architecture de données doit rassembler tout cela. »
Google Cloud a pu construire ce qu’il avait déjà fait dans le domaine du stockage de données avec des services comme BigQuery pour construire BigLake.
« Nous avons des dizaines de milliers de clients sur BigQuery et nous avons beaucoup investi dans toute la gouvernance, la sécurité et toutes les capacités de base », a-t-il déclaré. « WNous prenons cette innovation de BigQuery et l’étendons maintenant à toutes les données qui se trouvent dans différents formats, ainsi que dans des environnements lacustres, que ce soit sur Google Cloud avec le stockage Google Cloud, que ce soit sur AWS ou sur Azure. Nous prenons les innovations et les étendons à d’autres environnements de lacs de données. »
Avec BigLake, Google Cloud permettra bientôt aux ingénieurs de données de suivre les modifications dans leur base de données Spanner en temps réel. Les flux de modifications de clé, qui arriveront dans un proche avenir, suivent les insertions, les mises à jour et les suppressions dans la base de données. Les modifications peuvent être répliquées sur BigQuery pour générer des analyses et stockées dans Google Cloud Storage à des fins de conformité.
Vertex AI Workbench, qui est maintenant disponible, crée une interface unique pour les systèmes de données et d’apprentissage automatique, offrant aux utilisateurs un ensemble d’outils communs pour l’analyse de données, la science des données et l’apprentissage automatique et pour accéder directement à BigQuery. Workbench s’intègre également à Serverless Spark et Dataproc et permet aux organisations de créer, former et déployer des modèles d’apprentissage automatique cinq fois plus rapidement que les systèmes traditionnels, a déclaré June Yang, vice-présidente des services d’IA et d’analyse cloud sur Google Cloud.
En outre, Google Cloud dispose de Vertex AI Model Registry, un service en préversion qui permet aux scientifiques des données de partager plus facilement des modèles et aux développeurs de transformer plus rapidement les données en prédictions.
Connected Sheets et Data Studio for Looker font partie d’un processus de Google Cloud visant à rapprocher davantage son portefeuille de services de business intelligence.
« Nous rassemblons ces deux mondes », a déclaré Sudhir Hasbe, directeur de la gestion des produits chez Google Cloud. « Vous pouvez désormais utiliser la puissance en libre-service d’outils tels que Data Studio ou Tableau et utiliser le modèle central de la couche sémantique Looker, où vous pouvez définir vos métriques en un seul endroit et tous les outils en libre-service fonctionneront de manière transparente et s’engageront avec cela. Cela permettra aux organisations et aux utilisateurs expérimentés de disposer d’outils en libre-service, mais aussi de centraliser les métriques et d’avoir une compréhension commune de l’entreprise dans l’ensemble de l’organisation.