Dans le contexte: Avec le type d’attention que la plupart des organisations accordent au côté applicatif de la transformation numérique, il est facile d’oublier le rôle essentiel que jouent les données dans ces efforts. Oui, le passage à des applications cloud natives basées sur des conteneurs, qu’elles soient hébergées dans des clouds publics ou privés, est essentiel, mais il en va de même pour les projets visant à organiser et à analyser les vastes quantités de données que la plupart des organisations génèrent ou auxquelles elles ont accès. En particulier, la nécessité de prendre en charge la portabilité des données et les outils d’analyse sur plusieurs clouds publics et privés – le modèle désormais classique de « cloud hybride » devient de plus en plus important.
Un élément important de ce travail consiste à décider comment exploiter au mieux les actifs de données disponibles. Récemment, de nombreuses entreprises ont commencé à envisager l’idée de ce que beaucoup appellent des data lakehouses. Comme son nom l’indique, un data lakehouse combine certaines des caractéristiques d’un lac de données et d’un entrepôt de données en une seule entité.
Les lacs de données contiennent généralement d’énormes quantités de données non structurées et semi-structurées composées de texte, d’images, d’audio, de vidéo, etc., et sont utilisés pour compiler des trésors d’informations sur un processus ou un sujet donné. Les entrepôts de données, en revanche, sont généralement constitués de données structurées organisées en tableaux de nombres, de valeurs, etc., et sont utilisés pour les types d’applications d’interrogation de bases de données traditionnelles.
Les data lakehouses étendent la flexibilité et la capacité des données qu’ils stockent en vous permettant d’utiliser les types d’outils d’analyse puissants initialement créés pour les entrepôts de données sur les lacs de données. De plus, ils vous permettent de combiner des éléments des deux types de structure de données pour une analyse plus sophistiquée, ce que beaucoup ont découvert comme extrêmement utile pour les applications d’IA et de ML.
Un partisan clé du concept de data lakehouse est Cloudera, une entreprise dont certaines racines remontent aux utilitaires logiciels open source Hadoop pour le big data, qui ont servi de moteur clé à la croissance des lacs de données. Lors du récent événement Evolve 2022 de Cloudera, la société a dévoilé quelques ajouts à ses principaux outils Cloudera Data Platform (CDP) qui devraient permettre l’utilisation de data lakehouses dans davantage d’environnements.
La société offre la possibilité de déplacer facilement des données et des outils d’analyse sur plusieurs clouds publics, notamment AWS et Microsoft Azure, ainsi que sur le cloud privé d’une organisation. Cloudera qualifie le concept de « données hybrides », où les données prennent désormais en charge la flexibilité et l’évitement de verrouillage que les applications de cloud hybride ont commencé à offrir.
Pour donner vie au concept de données hybrides, Cloudera a activé trois nouvelles fonctionnalités spécifiques : Les services de données portables permettent aux entreprises de déplacer les applications et services d’analyse créés pour un ensemble de données particulier dans divers environnements publics et privés sans avoir à modifier une seule ligne de code. La réplication sécurisée des données déplace une copie exacte des données elles-mêmes dans les différents environnements, garantissant ainsi aux entreprises l’accès aux données dont elles ont besoin pour une charge de travail donnée. Enfin, Universal Data Distribution exploite le nouvel outil Cloudera DataFlow de l’entreprise pour l’ingestion ou l’importation dans la plate-forme avec un accent particulier sur les flux de données, permettant ainsi d’intégrer également les flux de données en direct dans les outils de gestion des données d’entreprise de l’entreprise. Comme la plupart des aspects de la solution de Cloudera, DataFlow est construit sur des outils open source, notamment Apache NiFi.
Ensemble, les trois services offrent aux organisations tous les outils dont elles ont besoin pour exécuter des charges de travail d’analyse de données sur un large éventail de types de données sur plusieurs plates-formes et emplacements physiques. Non seulement cela donne aux entreprises la flexibilité qu’elles ont appris à apprécier avec les architectures de cloud hybride, mais cela ouvre également de nouvelles opportunités.
Par exemple, il peut également être exploité pour essayer une charge de travail d’analyse dans différents environnements afin de mieux comprendre l’accélération matérielle unique ou les avantages de la plate-forme que différents clouds (publics ou privés) peuvent offrir. L’objectif est d’aider les entreprises à créer une structure de données flexible pouvant s’étendre à tout type d’environnement le mieux adapté à un projet ou à un ensemble de données donné.
Comme cela est devenu clair avec le cloud computing en général, la nécessité de prendre en charge des solutions hybrides multi-cloud est devenue un enjeu majeur pour les outils d’application modernes d’aujourd’hui. Par conséquent, les fournisseurs ont déjà créé ou travaillent à activer ce type de support flexible. Par conséquent, il est extrêmement logique d’étendre ce type d’approche aux outils de données et d’analyse qui alimentent souvent ces applications. Avec les dernières extensions de Cloudera pour CDP, Cloudera fait un pas important dans cette direction.
Bob O’Donnell est le fondateur et analyste en chef de TECHnalysis Research, LLC une société de conseil en technologie qui fournit des services de conseil stratégique et d’étude de marché à l’industrie technologique et à la communauté financière professionnelle. Vous pouvez le suivre sur Twitter @bobodtech.