Lors de son événement Cloud Next, Google a annoncé aujourd’hui le lancement de Étincelle sur Google Cloud en tant que service entièrement géré. Avec cela, le moteur de traitement de données open source populaire deviendra une offre premium sur Google Cloud.
« Avec cette innovation, Spark arrive enfin dans le monde du cloud natif », a déclaré Gerrit Kazmaier, vice-président et directeur général de Google pour les bases de données, l’analyse de données et Looker. « Il permet aux ingénieurs de données et aux scientifiques des données de travailler avec Spark sans se soucier des configurations de fin de cluster. Nous l’avons également intégré à tous nos services de données. Vous pouvez donc le lancer directement depuis BigQuery, depuis Vertex AI, depuis Dataplex. Cela rend l’utilisation de Spark si simple qu’elle permet à nos clients d’utiliser les frameworks et les kits d’outils qu’ils connaissent.
Google soutient qu’il s’agit du « le premier service Spark d’autoscaling et sans serveur au monde pour la plate-forme de données Google Cloud. » Mais il convient de noter que, compte tenu de sa popularité, de nombreuses autres sociétés exploiteront et géreront Spark pour leurs clients. Spark est également au centre de la plate-forme de Databricks, ce qui n’est peut-être pas une surprise, étant donné que la startup bien financée a été fondée par les créateurs de Spark.
Vous pouvez également vous demander : Google Cloud n’offre-t-il pas déjà un service Spark géré dans le cadre de Dataproc (c’est-à-dire, bien sûr, si vous êtes l’une des cinq personnes capables de se souvenir de chaque service que Google, Amazon et Microsoft maintenant offre dans leurs nuages…) ?
Ce sont des services différents, ciblant des clients différents, m’a dit Kazmaier. Si vous avez déjà Spark, Hadoop ou peut-être MapReduce, Presto et d’autres systèmes opérationnels, alors l’idée ici est que Dataproc vous fournira tout cela, mais en tant que service géré. Mais pour Kazmaier, l’objectif de ce qu’il construit autour des services de données de Google Cloud est axé sur la simplicité et surtout sur la simplification de la vie des entreprises qui commencent tout juste leur parcours de données.
« Vous êtes en train de constituer une équipe de données et vous embauchez un ingénieur de données et un scientifique de données ? Faites ce que vous voulez vraiment pour commencer en disant : « Je vais maintenant construire un système de stockage. Je vais construire un système de métadonnées à partir de zéro.’ Bien sûr que non, mais c’est littéralement ce que vous êtes obligé de faire aujourd’hui », a-t-il déclaré. « Maintenant, avec Spark sans serveur, vous n’avez qu’à dire « Go ». »