Des données de haute qualité peuvent être la clé d’une IA de haute qualité. Avec études Si l’on constate que c’est la curation des ensembles de données, plutôt que la taille, qui affecte réellement les performances d’un modèle d’IA, il n’est pas surprenant que l’accent soit mis de plus en plus sur les pratiques de gestion des ensembles de données. D’après quelques Enquêtes, les chercheurs en IA consacrent aujourd’hui une grande partie de leur temps à la préparation des données et aux tâches d’organisation.
Les frères Vahan Petrosyan et Tigran Petrosyan ont ressenti la douleur de devoir gérer beaucoup de données lors de la formation d’algorithmes à l’université. Vahan est allé jusqu’à créer un outil de gestion de données lors de ses recherches doctorales sur la segmentation d’images.
Quelques années plus tard, Vahan s’est rendu compte que les développeurs – et même les entreprises – seraient heureux de payer pour un outillage similaire. C’est ainsi que les frères fondèrent une entreprise, SuperAnnotate, pour le construire.
« Au cours de l’explosion de l’innovation en 2023 autour des modèles et de l’IA multimodale, le besoin d’ensembles de données de haute qualité est devenu plus strict, chaque organisation ayant plusieurs cas d’utilisation nécessitant des données spécialisées », a déclaré Vahan dans un communiqué. « Nous avons vu une opportunité de construire une plateforme facile à utiliser et à faible code, comme un couteau suisse pour les données d’entraînement de l’IA moderne. »
SuperAnnotate, qui compte parmi ses clients Databricks et Canva, aide les utilisateurs à créer et à suivre de grands ensembles de données d’entraînement de l’IA. La startup s’est d’abord concentrée sur les logiciels d’étiquetage, mais fournit maintenant des outils pour affiner, itérer et évaluer des ensembles de données.
Avec la plateforme de SuperAnnotate, les utilisateurs peuvent connecter des données provenant de sources locales et du cloud pour créer des projets de données sur lesquels ils peuvent collaborer avec leurs coéquipiers. À partir d’un tableau de bord, les utilisateurs peuvent comparer les performances des modèles en fonction des données utilisées pour les entraîner, puis déployer ces modèles dans divers environnements une fois qu’ils sont prêts.
SuperAnnotate permet également aux entreprises d’accéder à un marché de travailleurs issus du crowdsourcing pour les tâches d’annotation de données. Les annotations sont généralement des morceaux de texte étiquetant le sens ou des parties de données sur lesquelles les modèles s’entraînent, et servent de repères pour les modèles, leur « apprenant » à distinguer les choses, les lieux et les idées.
Pour être franc, là sont plusieurs Reddit bobine sur le traitement par SuperAnnotate des annotateurs de données qu’il utilise, et ils ne sont pas flatteurs. Les annotateurs se plaignent de problèmes de communication, d’attentes peu claires et de bas salaires.
Pour sa part, SuperAnnotate affirme qu’elle paie des tarifs équitables sur le marché et que ses exigences envers les annotateurs ne sont pas hors norme pour l’industrie. Nous avons demandé à l’entreprise de fournir des informations plus détaillées sur ses pratiques et nous mettrons à jour cet article si nous avons une réponse.
Il existe plusieurs concurrents dans le domaine de la gestion des données d’IA, notamment des startups comme Scale AI, Weka et Dataloop. SuperAnnotate, basé à San Francisco, a cependant réussi à tenir le coup, levant récemment 36 millions de dollars lors d’un tour de table de série B mené par Socium Ventures, avec la participation de Nvidia, Databricks Ventures, Play Time Ventures et Defy.vc.
Le nouveau capital, qui porte le total levé par SuperAnnotate à un peu plus de 53 millions de dollars, sera utilisé pour augmenter son équipe actuelle d’environ 100 personnes, pour la R&D de produits et pour développer la clientèle de SuperAnnotate d’environ 100 entreprises.
« Notre objectif est de construire une plate-forme capable de s’adapter pleinement aux besoins changeants des entreprises et d’offrir une personnalisation étendue dans l’ajustement fin des données », a déclaré Vahan.