Traditionnellement, les défis d’entrée et de sortie des données ont été le talon d’Achille de l’analyse de données basée sur le cloud. Google dit qu’il résout ce problème grâce à une nouvelle offre, BigQuery Omni, qui permettra d’analyser les données à travers une infrastructure cloud multi-cloud et hybride sans avoir à déplacer les données au préalable.
Google annoncé BigQuery Omni le 14 juillet, la présentant comme «une solution d’analyse multi-cloud flexible qui vous permet d’accéder de manière rentable et d’analyser en toute sécurité les données sur Google Cloud, Amazon Web Services (AWS et Azure (à venir bientôt)». »
En d’autres termes, l’outil étend Google BigQuery plate-forme d’entrepôt de données en ajoutant la prise en charge des données stockées dans des nuages autres que Google.
Analyser les données multicloud
Il est facile de voir la valeur nominale de ce type d’offre: traditionnellement, si vous aviez une architecture multi-cloud qui comprenait des données stockées sur chaque cloud, et que vous vouliez analyser ces données de manière complète, vous disposiez de deux options moins qu’idéales disponibles pour ce faire.
L’une consistait à exécuter des opérations d’analyse distinctes sur chaque cloud. Cela vous obligerait à utiliser plusieurs outils d’analyse de données, un pour chaque cloud. Cela laisserait également vos données cloisonnées, ce qui rend difficile l’identification des tendances qui s’étendent à tous les ensembles de données sur tous les nuages.
L’autre option était de déplacer toutes vos données dans un seul cloud, puis de les analyser là-bas. L’inconvénient ici est que cela peut prendre beaucoup de temps si vous avez d’énormes quantités de données à travailler, étant donné les limites de bande passante impliquées dans le déplacement des données d’un cloud à un autre sur Internet. En outre, étant donné que les fournisseurs de cloud public facturent généralement des frais chaque fois que vous déplacez des données hors de leurs clouds, la consolidation des données multicloud dans un seul emplacement n’est pas particulièrement rentable.
BigQuery Omni propose une troisième approche: vous pouvez utiliser une seule plate-forme – BigQuery – pour analyser les données dans plusieurs clouds publics à la fois. Vous n’avez pas besoin de déplacer les données en premier ni de déployer différents outils d’analyse pour chaque cloud.
Limitations de BigQuery Omni
Cela dit, certains spécialistes des données, développeurs et administrateurs cloud peuvent voir des limites dans l’offre Omni.
D’une part, cela ne fonctionne qu’avec BigQuery. Si vous préférez d’autres plateformes d’entreposage de données, comme Amazon RedShift, vous n’avez pas de chance. En ce sens, bien que BigQuery Omni puisse sembler être une décision de Google de devenir plus amical envers les clouds d’autres fournisseurs, vous pouvez également l’interpréter comme un effort pour voler des parts de marché aux plateformes de données basées sur le cloud de vos concurrents. L’histoire serait différente si Google rendait son propre stockage en nuage compatible avec les outils d’entreposage de données tiers, mais ce n’est pas le cas.
Je me demande également combien d’organisations existent qui ont des quantités importantes de données réparties sur plusieurs clouds. En règle générale, si vous créez une architecture multi-cloud, vous utilisez un cloud pour un type de service (comme le stockage de données) et un autre pour un autre (comme le calcul). Le stockage de certaines données dans un cloud et les autres dans un autre complique la gestion et rend la sécurité et la conformité plus difficiles, car vous devez gérer ces besoins séparément pour chaque cloud. Pour cette raison, il serait rare qu’un architecte cloud dise: «Hé, stockons un tiers de nos données stratégiques dans AWS, un autre tiers dans Azure et le reste dans GCP.»
Certes, il existe des organisations dont les données sont cloisonnées sur plusieurs clouds en raison de systèmes hérités qui rendent difficile la centralisation des données dans un cloud, ou simplement en raison d’une mauvaise planification architecturale. Mais dans l’ensemble, je soupçonne que le nombre d’entreprises ayant un cas d’utilisation clair pour BigQuery Omni dans sa forme actuelle est limité.
Entreposage de données dans le cloud public pour les centres de données privés?
Il existe cependant un autre cas d’utilisation potentiel pour BigQuery Omni qui est plus intéressant que l’analyse de données sur plusieurs clouds publics: l’extension de l’entreposage de données de cloud public dans des centres de données privés.
BigQuery Omni est alimenté par Anthos, la solution Kubernetes de Google pour unifier les charges de travail qui sont répartis sur plusieurs nuages ou une architecture cloud hybride. Avec Anthos, vous pouvez utiliser la même interface de gestion et les mêmes outils pour déployer une charge de travail même si l’infrastructure sous-jacente s’étend sur un centre de données privé et un cloud public, ou plus d’un cloud public.
Il est facile de voir comment BigQuery Omni et Anthos vont de pair: Anthos fournit la couche d’abstraction qu’Omni utilise pour gérer les données stockées sur n’importe quel cloud public.
Mais parce qu’Anthos peut également s’intégrer à des centres de données privés, cela pourrait permettre d’utiliser Omni conjointement avec des données stockées dans un centre de données privé ou avec des données. hébergé dans une installation de colocation. Bien que l’annonce de Google n’ait pas mentionné ce type de cas d’utilisation, il n’y a aucune raison claire pour laquelle il ne peut pas être également pris en charge, compte tenu du support d’Anthos pour les architectures de cloud hybride.
Et il semblerait qu’il y ait plus de logique derrière l’utilisation de l’outil à cette fin. À l’heure actuelle, une limitation majeure de BigQuery et des solutions d’entreposage de données basées sur le cloud similaires des fournisseurs de cloud public est qu’elles nécessitent que vos données soient dans le cloud public. Si vous souhaitez conserver vos données dans un centre de données privé – ce que vous avez peut-être une bonne raison de faire pour la sécurité, la conformité ou les performances – vous ne pouvez pas utiliser un outil comme BigQuery pour interagir avec. Si Omni étend la prise en charge aux centres de données privés via un modèle de cloud hybride, cela changerait, car l’outil pourrait être utilisé conjointement avec les données stockées dans un centre de données privé.
Il existe probablement beaucoup plus d’entreprises avec des données dans des centres de données privés qui trouveraient une solution comme celle-ci utile qu’il n’y a d’organisations qui ont de grands volumes de données réparties sur plusieurs clouds publics.
Pour l’instant, ce n’est pas un cas d’utilisation qu’Omni permet. L’outil « ne prend pas encore en charge les sources de données locales (et donc hybrides) », a déclaré un représentant de Google Cloud à Data Center Knowledge dans un e-mail. Les utilisateurs de BigQuery Omni devront se contenter d’intégrer uniquement leurs données stockées sur GCP et AWS, étant donné que ce sont les seuls nuages que l’outil prend en charge actuellement. (La prise en charge Azure reste en cours de développement, probablement parce qu’Anthos lui-même n’offre pas encore une prise en charge complète d’Azure.)
Mais peut-être que dans un avenir relativement proche, vous utiliserez BigQuery pour aider à analyser les données dans votre centre de données privé ou de colocation.
Correction: 15 juillet 2020
Modifié avec un commentaire d’un porte-parole de Google sur le manque actuel de support pour les cas d’utilisation sur site.