Écoutez les DSI, les CTO et d’autres cadres supérieurs et dirigeants sur les stratégies de données et d’IA lors du Sommet sur l’avenir du travail du 12 janvier 2022. Apprendre encore plus


L’apprentissage en profondeur montre beaucoup de promesse dans les soins de santé, en particulier dans l’imagerie médicale, où il peut être utilisé pour améliorer la vitesse et la précision du diagnostic de l’état des patients. Mais elle se heurte également à un sérieux obstacle : le manque de données de formation étiquetées.

Dans contextes médicaux, les données d’entraînement coûtent cher, ce qui les rend très difficiles à utiliser l’apprentissage en profondeur pour de nombreuses applications.

Pour surmonter cet obstacle, les scientifiques ont exploré plusieurs solutions à divers degrés de succès. Dans un nouveau papier, intelligence artificielle les chercheurs de Google suggèrent une nouvelle technique qui utilise apprentissage auto-supervisé pour former des modèles d’apprentissage en profondeur pour l’imagerie médicale. Les premiers résultats montrent que la technique peut réduire le besoin de données annotées et améliorer les performances des modèles d’apprentissage en profondeur dans les applications médicales.

Préformation supervisée

Les réseaux de neurones convolutifs se sont avérés très efficaces pour les tâches de vision par ordinateur. Google est l’une des nombreuses organisations qui ont exploré son utilisation dans l’imagerie médicale. Ces dernières années, la branche recherche de l’entreprise a construit plusieurs modèles d’imagerie médicale dans des domaines tels que l’ophtalmologie, la dermatologie, la mammographie et la pathologie.

Publicité

« L’application de l’apprentissage en profondeur à la santé suscite beaucoup d’enthousiasme, mais cela reste un défi car des modèles DL très précis et robustes sont nécessaires dans un domaine comme les soins de santé », a déclaré Shekoofeh Azizi, résident de l’IA à Recherche Google et auteur principal de l’article auto-supervisé.

L’un des principaux défis de l’apprentissage en profondeur est le besoin d’énormes quantités de données annotées. Grand les réseaux de neurones nécessitent des millions d’exemples étiquetés pour atteindre une précision optimale. En milieu médical, l’étiquetage des données est une entreprise compliquée et coûteuse.

« L’acquisition de ces« étiquettes » en milieu médical est difficile pour diverses raisons : cela peut prendre du temps et être coûteux pour les experts cliniques, et les données doivent répondre aux exigences de confidentialité pertinentes avant d’être partagées», a déclaré Azizi.

Pour certaines conditions, les exemples sont rares, pour commencer, et dans d’autres, comme le dépistage du cancer du sein, cela peut prendre plusieurs années pour que les résultats cliniques se manifestent après la prise d’une image médicale.

Les changements de distribution entre les données de formation et les environnements de déploiement, tels que les changements dans la population de patients, la prévalence ou la présentation de la maladie et la technologie médicale utilisée pour l’acquisition d’imagerie, compliquent encore les exigences en matière de données des applications d’imagerie médicale, a ajouté Azizi.

Un moyen populaire de remédier à la pénurie de données médicales consiste à utiliser une préformation supervisée. Dans cette approche, un réseau de neurones convolutifs est initialement formé sur un ensemble de données d’images étiquetées, telles que ImageNet. Cette phase ajuste les paramètres des couches du modèle aux motifs généraux trouvés dans toutes sortes d’images. Le modèle d’apprentissage en profondeur formé peut ensuite être affiné sur un ensemble limité d’exemples étiquetés pour la tâche cible.

Plusieurs études ont montré que la préformation supervisée est utile dans des applications telles que l’imagerie médicale, où les données étiquetées sont rares. Mais la préformation encadrée a aussi ses limites.

« Le paradigme commun pour la formation de modèles d’imagerie médicale est l’apprentissage par transfert, où les modèles sont d’abord pré-entraînés à l’aide d’un apprentissage supervisé sur ImageNet. Cependant, il existe un grand décalage de domaine entre les images naturelles dans ImageNet et les images médicales, et des recherches antérieures ont montré qu’une telle pré-formation supervisée sur ImageNet peut ne pas être optimale pour développer des modèles d’imagerie médicale », a déclaré Azizi.

Préformation auto-encadrée

L’apprentissage auto-supervisé est devenu un domaine de recherche prometteur ces dernières années. Dans l’apprentissage auto-supervisé, les modèles d’apprentissage en profondeur apprennent les représentations des données d’entraînement sans avoir besoin d’étiquettes. S’il est bien fait, l’apprentissage auto-supervisé peut être très avantageux dans les domaines où les données étiquetées sont rares et les données non étiquetées sont abondantes.

En dehors du milieu médical, Google a développé plusieurs techniques d’apprentissage auto-supervisé pour former des réseaux de neurones aux tâches de vision par ordinateur. Parmi eux se trouve le cadre simple pour l’apprentissage contrastif (SimCLR), qui a été présenté à la conférence ICML 2020. L’apprentissage contrastif utilise différentes cultures et variations de la même image pour entraîner un réseau de neurones jusqu’à ce qu’il apprenne des représentations robustes aux changements.

Dans leur nouveau travail, l’équipe de recherche de Google a utilisé une variante du cadre SimCLR appelée Multi-Instance Contrastive Learning (MICLe), qui apprend des représentations plus fortes en utilisant plusieurs images de la même condition. C’est souvent le cas dans les ensembles de données médicales, où il existe plusieurs images du même patient, bien que les images puissent ne pas être annotées pour un apprentissage supervisé.

« Des données non étiquetées sont souvent disponibles en grande quantité dans divers domaines médicaux. Une différence importante est que nous utilisons plusieurs vues de la pathologie sous-jacente couramment présente dans les ensembles de données d’imagerie médicale pour construire des paires d’images pour un apprentissage auto-supervisé contrastif », a déclaré Azizi.

Lorsqu’un modèle d’apprentissage en profondeur auto-supervisé est formé sur différents angles de vue de la même cible, il apprend plus de représentations qui sont plus robustes aux changements de point de vue, de conditions d’imagerie et d’autres facteurs qui pourraient affecter négativement ses performances.

Mettre tous ensemble

Le cadre d’apprentissage auto-supervisé Chercheurs de Google utilisé comportait trois étapes. Tout d’abord, le réseau de neurones cible a été formé sur des exemples de l’ensemble de données ImageNet à l’aide de SimCLR. Ensuite, le modèle a été entraîné davantage à l’aide de MICLe sur un ensemble de données médicales contenant plusieurs images pour chaque patient. Enfin, le modèle est affiné sur un ensemble de données limité d’images étiquetées pour l’application cible.

Les chercheurs ont testé le cadre sur deux tâches d’interprétation en dermatologie et en radiographie pulmonaire. Par rapport à la pré-formation supervisée, la méthode auto-supervisée offre une amélioration significative de la précision, de l’efficacité des étiquettes et de la généralisation hors distribution des modèles d’imagerie médicale, ce qui est particulièrement important pour les applications cliniques. De plus, cela nécessite beaucoup moins de données étiquetées.

« En utilisant l’apprentissage auto-supervisé, nous montrons que nous pouvons réduire considérablement le besoin de données annotées coûteuses pour créer des modèles de classification d’images médicales », a déclaré Azizi. En particulier, sur la tâche de dermatologie, ils ont pu entraîner les réseaux de neurones pour qu’ils correspondent aux performances du modèle de base tout en utilisant seulement un cinquième des données annotées.

« Cela se traduira, espérons-le, par des économies de temps et d’argent considérables pour le développement de modèles d’IA médicale. Nous espérons que cette méthode inspirera des explorations dans de nouvelles applications de soins de santé où l’acquisition de données annotées a été difficile », a déclaré Azizi.

Ben Dickson est ingénieur logiciel et fondateur de TechTalks. Il écrit sur la technologie, les affaires et la politique.

Cette histoire est parue à l’origine sur Bdtechtalks.com. Droit d’auteur 2021

VentureBeat

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur la technologie transformatrice et d’effectuer des transactions. Notre site fournit des informations essentielles sur les technologies et les stratégies de données pour vous guider dans la gestion de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder à :

  • des informations à jour sur les sujets qui vous intéressent
  • nos newsletters
  • contenu de leader d’opinion fermé et accès à prix réduit à nos événements prisés, tels que Transformer 2021: Apprendre encore plus
  • fonctionnalités de mise en réseau, et plus

Devenir membre

Rate this post
Publicité
Article précédentLe géant des baskets Adidas dit que le métaverse est « excitant », révèle un partenariat avec Coinbase – Bitcoin News
Article suivantCrypto Resource DappRadar va lancer son propre jeton de gouvernance
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici