Fivetran, la société la plus connue pour aider les entreprises à construire leurs pipelines de données, mardi annoncé la disponibilité générale de son tout nouveau produit, le Fivetran Managed Data Lake Service.
Le nouveau service vise à supprimer le travail répétitif de gestion des lacs de données en l’automatisant et en le rationalisant pour les entreprises clientes, ce qui leur permet de se concentrer sur la création de produits à partir de ces données. À partir de maintenant, le service prend en charge Amazon S3, Azure Data Lake Storage (ADLS) et Microsoft OneLake, avec la prise en charge de google Cloud sur la feuille de route.
Traditionnellement, Fivetran ne prenait en charge que les entrepôts de données, qui sont généralement utilisés pour stocker des données structurées et relationnelles afin d’alimenter des applications d’analyse et de business intelligence (BI). Les lacs de données, quant à eux, sont destinés à stocker des données structurées et non structurées provenant d’un large éventail de sources et pour des cas d’utilisation qui incluent souvent des charges de travail d’analyse en temps réel et de machine learning. Databricks a également popularisé le concept de Maison du lac, qui vise à combiner le meilleur des deux mondes en un seul référentiel de données.
« L’idée est d’apporter l’infrastructure évolutive que nous avons fournie à la BI au cours des neuf dernières années à l’IA et à l’ensemble de l’environnement de charge de travail », m’a dit Taylor Brown, cofondateur et directeur de l’exploitation de Fivetran.
Le service de lac de données géré utilise les 500+ connecteurs existants de Fivetran, puis le normalise et le déduplique avant de l’envoyer dans l’un des lacs de données pris en charge dans les formats de table Delta Lake ou Apache Iceberg. Une fois dans le lac de données, les utilisateurs peuvent ensuite travailler avec le moteur de calcul de leur choix (pensez à Databricks, Snowflake, Starburst ou Redshift) pour opérationnaliser ces données – ou les apporter à une plateforme de machine learning pour alimenter leurs nouvelles applications d’IA.
« Fivetran n’a vraiment pris en charge que les entrepôts de données, […] et certains clients utilisent certainement ces outils comme des lacs de données, mais nous avons eu beaucoup de clients qui nous ont demandé de prendre en charge davantage de formats Iceberg et Delta Lake dans les lacs de données, en particulier les plus gros clients », a déclaré Brown.
Brown m’a dit que de nombreux clients qui ont essayé le nouveau service géré pendant sa période de prévisualisation ont réalisé qu’ils construisaient les mêmes pipelines pour charger leurs données dans des entrepôts de données et des lacs de données.
L’un des problèmes des lacs de données est qu’il est souvent difficile de s’assurer que les utilisateurs n’ont accès qu’aux données qu’ils sont censés utiliser. Dans l’annonce de mardi, Fivetran a souligné qu’il s’intègre aux catalogues de données et aux solutions de gouvernance existants tels qu’AWS Glue, Databricks Unity Catalog et Microsoft Purview.
« Nous sommes très heureux que Fivetran soutienne Delta Lake en tant que destination directe », a déclaré Himanshu Raja, directeur des produits chez Databricks. « Grâce à cette nouvelle fonctionnalité, les clients peuvent désormais utiliser Fivetran pour construire un lakehouse ouvert avec Delta Lake alimenté par la plateforme Databricks Data Intelligence. Nous sommes également très enthousiastes à l’idée de l’intégration prochaine de Fivetran avec Unity Catalog pour fournir une gouvernance et une Sécurité prêtes à l’emploi pour toutes les tables générées par Fivetran.
Jusqu’à la fin du mois d’août, Fivetran met le nouveau service à disposition gratuitement (jusqu’à 10 000 $ par client). Après cela, Fivetran appliquera son modèle de consommation actuel pour le facturer. « L’un des avantages de l’utilisation du service de lac de données géré de Fivetran est que l’ingestion est gratuite », a déclaré Brown. « Si vous chargez dans Snowflake, Databricks ou les autres consommateurs en aval, vous devez utiliser le calcul de l’entrepôt pour ingérer les données, ce qui peut être assez [expensive] dans certains cas. »