Les données sont devenues l’une des plus grandes ressources au monde, sous-tendant tout, des moteurs de recommandation vidéo et des services bancaires numériques à la révolution naissante de l’IA. Mais dans un monde où les données sont de plus en plus distribuées sur plusieurs sites, des bases de données aux entrepôts de données en passant par les lacs de données et au-delà, les combiner dans un format compatible pour une utilisation dans des scénarios en temps réel peut être une entreprise colossale.
Pour le contexte, les applications qui ne nécessitent pas un accès instantané aux données en temps réel peuvent simplement combiner et traiter les données par lots à intervalles fixes. Ce soi-disant «traitement de données par lots» peut être utile pour des choses comme le traitement des données de ventes mensuelles. Mais souvent, une entreprise sera ont besoin d’un accès en temps réel aux données au fur et à mesure de leur création, ce qui peut être essentiel pour les logiciels de support client qui s’appuient sur des informations actuelles sur chaque vente, par exemple.
Ailleurs, les applications de ride-hail doivent également traiter toutes sortes de points de données afin de connecter un conducteur à un conducteur – ce n’est pas quelque chose qui peut attendre quelques jours. Ces types de scénarios nécessitent ce que l’on appelle le « traitement des données de flux », où les données sont collectées et combinées pour un accès en temps réel, ce qui est beaucoup plus complexe à configurer.
C’est quoi Bouteur vise à répondre, en alimentant des API rapides en lecture seule directement à partir de n’importe quelle source via une infrastructure de données plug-and-play.
Le bouteur est l’œuvre de Vivek Gudapuri et Matteo Pelati, qui ont fondé l’entreprise depuis leur siège à Singapour il y a près d’un an. Le duo a constitué une équipe répartie de 10 personnes à travers l’Asie et l’Europe de l’Est alors qu’elle se prépare à se développer au-delà du produit actuel. source disponible (c’est-à-dire pas tout à fait open source) dans un produit entièrement monétisable.
Dozer a testé son produit avec une poignée de partenaires de conception non divulgués, et aujourd’hui, il sort de la furtivité pour que tout développeur puisse y accéder. La société a également révélé qu’elle avait levé 3 millions de dollars en financement de démarrage auprès de Indien de Sequoia Capital bras (via son Monter programme), google Gradient Ventureset Capitale de janvier.
Distribué
Il existe déjà d’innombrables outils conçus pour transformer, intégrer et exploiter les données distribuées, y compris les bases de données en continu et les outils ETL (extraire, transformer, charger) tels que Apache Flink, Airbyte et Fivetran ; couches de mise en cache pour le stockage de données transitoires telles que Redis ; et des API instantanées alimentées par Hasura ou Supabase pour canaliser les données entre les systèmes.
Dozer, pour sa part, travaille dans toutes ces différentes catégories, en adoptant ce qu’il juge être les meilleures parties et en supprimant les frictions qui accompagnent la construction de l’infrastructure et de la plomberie qui sous-tendent les applications de données en temps réel.
Les utilisateurs connectent Dozer à leur pile de données existante, qui peut inclure des bases de données, des entrepôts de données et des lacs de données, et Dozer s’occupe de l’extraction, de la mise en cache et de l’indexation des données en temps réel, et de les faire apparaître via des API à faible latence. Ainsi, alors que quelque chose comme Airbyte ou Fivetran aide à introduire des données dans un entrepôt de données, Dozer se concentre sur l’autre aspect : « rendre ces données accessibles de la manière la plus efficace », a expliqué Gudapuri à fr.techtribune.net.
Gudapuri a déclaré que Dozer « adopte une approche opiniâtre », qui s’attaque à des problèmes très spécifiques et pas plus. Par exemple, les bases de données de streaming en place résolvent de nombreux problèmes bien au-delà de ce que propose Dozer, qui consiste à fournir des mises à jour de données et des API en temps réel dans un seul produit.
« Nous résolvons juste la bonne quantité de problèmes dans chacune de ces catégories pour offrir une expérience de construction rapide aux développeurs, ainsi que des performances prêtes à l’emploi », a déclaré Gudapuri. « Les développeurs doivent (actuellement) intégrer plusieurs outils pour obtenir le même résultat. »
À titre d’exemple, une base de données de streaming existante essaiera probablement de présenter l’intégralité de l’expérience de la base de données à l’utilisateur, remplie de moteur de requête, d’exploration de données, d’OLAP (processus analytique en ligne) et ainsi de suite. Dozer n’offre délibérément pas ces choses, se concentrant plutôt sur ce que Pelati appelle des « vues pré-calculées » utilisant SQL, Python et JavaScript, toutes accessibles via une faible latence gRPC et REPOS Apis.
C’est pour cette raison, dit Pelati, que Dozer peut promettre une meilleure latence des requêtes de données.
« En raison de ces choix de conception, Dozer offre une latence de requête bien supérieure, ce qui est nécessaire pour les applications orientées client », a déclaré Pelati. « Un seul développeur peut lancer des applications de données entières en quelques minutes ; cela prendrait généralement des mois d’efforts. Une équipe n’a pas besoin de créer et de maintenir plusieurs intégrations, ce qui permet d’économiser du temps et de l’argent. »
Le facteur (pas tout à fait) open source
Alors que Dozer est présenté comme une plate-forme « open source », un rapide coup d’œil à son licence sur GitHub révèle qu’il utilise un Licence élastique 2.0 (ELv2), la même licence que la société de recherche d’entreprise Elastic adopté il y a deux ans dans le cadre de sa transition loin à partir d’une véritable source ouverte. En effet, la licence Elastic n’est pas reconnu comme open sourcecar il empêche les tiers de prendre le logiciel et de le proposer eux-mêmes en tant que service hébergé ou géré.
Plus précisément, ELv2 peut être qualifiée de licence « source disponible », ce qui signifie en fait qu’elle offre de nombreux avantages d’une licence open source plus permissive. comme le MIT, y compris la transparence de la base de code, la possibilité d’étendre les capacités de Dozer ou d’affiner les fonctionnalités et de corriger les bogues. Cela suffira probablement à gagner le cœur et l’esprit des entreprises de toutes tailles tant que ce n’est pas AWS ou un autre géant du cloud qui cherche à monétiser directement au-dessus de Dozer.
Cependant, la société a déclaré qu’elle avait l’intention de passer à une double licence « très bientôt », où tout dans le projet principal de Dozer sera MIT-sous licence sauf pour « un module principal ». De plus, la société n’hésite pas à souligner que toutes ses bibliothèques clientes sont déjà sous licence MIT, y compris Python, Réagir et Javascript.
Il convient de noter que certaines entreprises ont créé des outils internes pour résoudre un problème similaire à celui auquel Dozer s’attaque, notamment Netflix, qui a construit Bulldozer il y a plusieurs années. Notamment, l’un des principaux créateurs derrière Bulldozer, Ioannis Papapanagiotoutravaille maintenant comme conseiller de Dozer.
Il est encore tôt pour Dozer, mais avec 3 millions de dollars en banque d’une foule de bailleurs de fonds de haut niveau, la société est assez bien financée alors qu’elle passe à la commercialisation, qui comprendra l’introduction d’une version SaaS hébergée remplie d’un tas de fonctionnalités complémentaires. Gudapuri a déclaré qu’il s’attend à ce que cela soit mis en ligne dans les mois à venir.
« Le service hébergé prendra en charge la mise à l’échelle automatique, les déploiements instantanés, la sécurité, la conformité, la limitation du débit et certaines fonctionnalités supplémentaires », a déclaré Gudapuri.