Rien que le mois dernier, un article a été partagé qui a montré que plus de 30% des données utilisées par Google pour l’un de leurs modèles d’apprentissage automatique partagés étaient mal étiquetées avec les mauvaises données. Non seulement le modèle lui-même était plein d’erreurs, mais les données d’entraînement réelles utilisées par ce modèle lui-même étaient pleines d’erreurs. Comment quelqu’un utilisant le modèle de Google pourrait-il jamais espérer faire confiance aux résultats s’il est plein d’erreurs induites par l’homme que les ordinateurs ne peuvent pas corriger. Et Google n’est pas le seul à mal étiqueter les données, un Étude du MIT en 2021 a constaté que près de 6% des images de la base de données ImageNet standard de l’industrie sont mal étiquetées et, en outre, a trouvé « des erreurs d’étiquetage dans les ensembles de tests de 10 des ensembles de données de vision par ordinateur, de langage naturel et audio les plus couramment utilisés ». Comment pouvons-nous espérer faire confiance à ces modèles ou les utiliser si les données utilisées pour former ces modèles sont si mauvaises?

La réponse est que vous ne pouvez pas faire confiance à ces données ou à ces modèles. Au fur et à mesure que l’IA va, les ordures sont très certainement des ordures, et les projets d’IA souffrent de déchets de données graves. Si Google, ImageNet et d’autres font cette erreur, vous faites certainement cette erreur aussi. Les recherches de Cognilytica montrent que plus de 80% du temps consacré aux projets d’IA est consacré à la gestion des données, de la collecte et de l’agrégation de ces données au nettoyage et à l’étiquetage. Même avec tout ce temps passé, des erreurs sont inévitables, et c’est si les données sont de bonne qualité pour commencer. De mauvaises données sont synonymes de mauvais résultats. Cela a été le cas pour toutes sortes de projets axés sur les données pendant des décennies, et maintenant c’est un problème important pour les projets d’IA, qui ne sont essentiellement que des projets Big Data.

La qualité des données est plus que de simples « mauvaises données »

Les données sont au cœur de l’IA. Ce qui motive les projets d’IA et de ML n’est pas le code programmatique, mais plutôt les données à partir desquelles l’apprentissage doit être dérivé. Trop souvent, les organisations avancent trop rapidement dans leurs projets d’IA pour se rendre compte seulement plus tard que la mauvaise qualité de leurs données provoque l’échec de leurs systèmes d’IA. Si vous n’avez pas vos données dans un état de bonne qualité, ne soyez pas surpris lorsque vos projets d’IA sont en proie.

Publicité

La qualité des données ne se limite pas à de « mauvaises données » telles que des étiquettes de données incorrectes, des points de données manquants ou erronés, des données bruyantes ou des images de mauvaise qualité. Des problèmes majeurs de qualité des données apparaissent également lorsque vous acquérez ou fusionnez des ensembles de données. Ils se produisent également lors de la capture des données et de l’amélioration des données avec des ensembles de données tiers. Chacune de ces actions, et plus encore, introduit de nombreuses sources potentielles de problèmes de qualité des données.

Bien sûr, comment réalisez-vous la qualité de vos données avant même de commencer votre projet d’IA ? Il est important d’évaluer l’état de vos données dès le départ et de ne pas aller de l’avant avec votre projet d’IA pour vous rendre compte trop tard que vous n’avez pas besoin de données de bonne qualité pour votre projet. Les équipes doivent déterminer leurs sources de données telles que les données de streaming, les données client ou les données tierces, puis comment fusionner et combiner avec succès les données de ces différentes sources. Malheureusement, la plupart des données ne viennent pas dans de bons états utilisables. Vous devez supprimer les données superflues, les données incomplètes, les données en double ou les données inutilisables. Vous devrez également filtrer ces données pour aider à minimiser les biais.

Mais nous n’avons pas encore terminé. Vous devrez également réfléchir à la façon dont les données doivent être transformées pour répondre aux exigences spécifiques que vous avez. Qu’allez-vous faire pour la mise en œuvre du nettoyage des données, de la transformation des données et de la manipulation des données ? Toutes les données ne sont pas créées égales et, au fil du temps, vous aurez une dégradation et une dérive des données.

Avez-vous réfléchi à la façon dont vous allez surveiller ces données et évaluer ces données pour vous assurer que la qualité reste au niveau dont vous avez besoin? Si vous avez besoin de données étiquetées, comment obtenez-vous ces données ? Il y a aussi des étapes d’augmentation des données à envisager éventuellement. Si vous devez augmenter les données, comment allez-vous surveiller cela? Oui, il y a beaucoup d’étapes impliquées dans la qualité des données et ce sont tous des aspects auxquels vous devez penser pour que votre projet réussisse.

L’étiquetage des données en particulier est un domaine commun où de nombreuses équipes sont bloquées. Pour que les approches d’apprentissage supervisé fonctionnent, elles doivent être alimentées avec de bonnes données propres et bien étiquetées afin qu’elles puissent apprendre de l’exemple. Si vous essayez d’identifier des images de bateaux dans l’océan, vous devez alimenter le système avec de bonnes images de bateaux bien étiquetées pour entraîner votre modèle. De cette façon, lorsque vous lui donnez une image qu’elle n’a jamais vue auparavant, cela peut vous donner un degré élevé de certitude si l’image contient ou non un bateau. Si vous ne faites que vous entraîner votre système avec des bateaux dans l’océan les jours ensoleillés sans couverture nuageuse, alors comment le système d’IA devrait-il réagir lorsqu’il voit un bateau la nuit ou un bateau avec une couverture nuageuse de 50%? Si vos données de test ne correspondent pas aux données du monde réel ou aux scénarios du monde réel, vous allez avoir un problème.

Même lorsque les équipes passent beaucoup de temps à s’assurer que leurs données de test sont parfaites, la qualité des données d’entraînement ne reflète souvent pas les données du monde réel. Dans un document public Par exemple, Andrew Ng, leader de l’industrie de l’IA, a expliqué comment, dans son projet avec Stanford Health, la qualité des données dans son environnement de test ne correspondait pas à la qualité des images médicales dans le monde réel, jugeant ses modèles d’IA inutiles en dehors de l’environnement de test. Cela a entraîné l’échec de l’ensemble du projet, mettant en péril des millions de dollars et des années d’investissement.

Planification de la réussite du projet

Toute cette activité centrée sur la qualité des données peut sembler écrasante, c’est pourquoi ces étapes sont souvent ignorées. Mais bien sûr, comme indiqué ci-dessus, les mauvaises données sont ce qui tue les projets d’IA. Donc, ne pas prêter attention à ces étapes est une cause majeure de l’échec global du projet d’IA. C’est pourquoi les organisations adoptent de plus en plus des approches de meilleures pratiques telles que CRISP-DM, Agile et Le pour s’assurer qu’ils ne manquent pas ou ne sautent pas les étapes cruciales de la qualité des données qui aideront à éviter l’échec du projet d’IA.

Le problème des équipes qui vont souvent de l’avant sans planifier la réussite du projet n’est que trop courant. En effet, les deuxième et troisième phases de la méthodologie CRISP-DM et du CPMAI sont « Compréhension des données » et « Préparation des données ». Ces étapes précèdent même la toute première étape de la construction de modèles et sont donc considérées comme une meilleure pratique pour les organisations d’IA qui cherchent à réussir.

En effet, si le projet médical de Stanford avait adopté le CPMAI ou des approches similaires, ils auraient réalisé bien avant la barre du million de dollars et de plusieurs années que les problèmes de qualité des données couleraient leur projet. Bien qu’il puisse être réconfortant de réaliser que même des sommités comme Andrew Ng et des entreprises comme Google font d’importantes erreurs de qualité des données, vous ne voulez toujours pas faire inutilement partie de ce club et laisser les problèmes de qualité des données affecter vos projets d’IA.

Rate this post
Publicité
Article précédentNew State Mobile annonce de nouveaux laboratoires d’état pour que les joueurs testent le contenu à venir dans le jeu
Article suivantQuelles sont les différentes stratégies de trading de crypto-monnaie
Avatar De Violette Laurent
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici