De nouvelles fonctionnalités apportant des performances de requête inégalées aux Lakehouses de données ouvertes
Aujourd’hui le Lac Delta projet a annoncé le Version candidate de Delta Lake 2.0qui comprend un collection de nouvelles fonctionnalités avec de vastes améliorations en termes de performances et de convivialité. La version finale de Delta Lake 2.0 sera disponible plus tard cette année.
Delta Lake est un projet de la Linux Foundation depuis octobre 2019 et est la couche de stockage ouverte qui apporte fiabilité et performance aux lacs de données via les «architectures Lakehouse», le meilleur des entrepôts de données et des lacs de données sous un même toit. Au cours des trois dernières années, les maisons du lac sont devenues une solution attrayante pour les ingénieurs de données, les analystes et les scientifiques des données qui souhaitent avoir la flexibilité d’exécuter différentes charges de travail sur les mêmes données avec une complexité minimale et sans duplication – de l’analyse des données au développement de la machine. modèles d’apprentissage. Delta Lake est le format Lakehouse le plus utilisé au monde et enregistre actuellement plus de 7 millions de téléchargements par mois (et continue de croître).
Delta Lake 2.0 apportera des améliorations majeures aux performances des requêtes pour les utilisateurs de Delta Lake, telles que la prise en charge du flux de données modifiées, le clustering d’ordre Z, les écritures idempotentes dans les tables Delta, la suppression de colonnes et bien d’autres (plus de détails dans le Notes de mise à jour de Delta Lake 2.0 RC). Cela permet à toute organisation de construire des Lakehouses hautement performants pour un large éventail de cas d’utilisation de données et d’IA.
L’annonce de Delta Lake 2.0 est intervenue pendant Sommet Données + IA 2022 discours d’ouverture comme Michel Armbrust, ingénieur distingué chez Databricks et co-fondateur du projet Delta Lake, a montré comment les nouvelles fonctionnalités amélioreront considérablement les performances et la gérabilité par rapport aux versions précédentes et aux autres formats de stockage. Databricks avait initialement ouvert Delta Lake et a, avec la communauté de Delta Lake, continuellement contribué de nouvelles fonctionnalités au projet. Le dernier ensemble de fonctionnalités inclus dans la v2.0 a d’abord été mis à la disposition des clients Databricks, garantissant qu’ils sont « testés au combat » pour les charges de travail de production avant d’être contribués au projet.
Databricks n’est pas la seule organisation à contribuer activement à Delta Lake – les développeurs de plus de 70 organisations différentes ont collaboré et contribué à de nouvelles fonctionnalités et capacités.
«Le projet Delta Lake connaît une activité phénoménale et des tendances de croissance indiquant que la communauté des développeurs souhaite faire partie du projet. La force des contributeurs a augmenté de 60 % au cours de la dernière année, la croissance du nombre total de commits a augmenté de 95 % et la ligne moyenne de code par commit a augmenté de 900 %. Nous constatons cette vitesse à la hausse de la part d’organisations contributrices comme Uber Technologies, Walmart et CloudBees, Inc., entre autres »,
— Directeur exécutif de la Fondation Linux, Jim Zemlin.
La communauté de Delta Lake vous invite à explorer Delta Lake et à rejoindre la communauté. Voici quelques liens utiles pour vous aider à démarrer :
En savoir plus sur le lac Delta à delta.io
Découvrez le projet sur GitHub
Rejoignez la communauté sur Mou ou Groupes Google
Suivez Delta Lake sur Twitter, LinkedIn ou Youtube