Accueil Google L’IA de DeepMind prédit les structures d’une vaste réserve de protéines

L’IA de DeepMind prédit les structures d’une vaste réserve de protéines

Par

juillet 23, 2021

Une Illustration D'Un Complexe De Pré-Initiation Lié Au Médiateur Humain. — Le complexe médiateur humain a longtemps été l’un des systèmes multiprotéiques les plus difficiles à comprendre pour les biologistes structurels.Crédit : Yuan He

Le génome humain contient les instructions de plus de 20 000 protéines. Mais seulement environ un tiers d’entre eux ont vu leurs structures 3D déterminées expérimentalement. Et dans de nombreux cas, ces structures ne sont que partiellement connues.

Aujourd’hui, un outil d’intelligence artificielle (IA) transformatrice appelé AlphaFold, qui a été développé par la société sœur de Google, DeepMind à Londres, a prédit la structure de la quasi-totalité du protéome humain (le complément complet des protéines exprimées par un organisme). En outre, l’outil a prédit des protéomes presque complets pour divers autres organismes, allant des souris et du maïs (maïs) au parasite du paludisme (voir « Options de repli »).

Les plus de 350 000 structures de protéines, qui sont disponibles via une base de données publique, varient dans leur précision. Mais les chercheurs affirment que la ressource – qui devrait atteindre 130 millions de structures d’ici la fin de l’année – a le potentiel de révolutionner les sciences de la vie.

« C’est totalement transformateur de mon point de vue. Avoir les formes de toutes ces protéines vous donne vraiment un aperçu de leurs mécanismes », explique Christine Orengo, biologiste informatique à l’University College London (UCL).

« Il s’agit de la plus grande contribution qu’un système d’IA ait apportée jusqu’à présent à l’avancement des connaissances scientifiques. Je ne pense pas que ce soit exagéré de dire cela », déclare Demis Hassabis, co-fondateur et directeur général de DeepMind.

Mais les chercheurs soulignent que le vidage des données est un début, pas une fin. Ils voudront valider les prédictions et, surtout, les appliquer à des expériences jusque-là impossibles. « C’est une première étape incroyable, que nous ayons toutes ces données à cette échelle », déclare David Jones, un biologiste informatique de l’UCL qui a conseillé DeepMind sur une version précédente d’AlphaFold.

Table des matières hide

1 Prédictions primées

2 Déluge de données

Prédictions primées

DeepMind a stupéfié la communauté des sciences de la vie l’année dernière, lorsqu’une version mise à jour d’AlphaFold a balayé un exercice biennal de prédiction de protéines appelé CASP (Critical Assessment of Protein Structure Prediction). Dans cette compétition de longue date, qui a traditionnellement été le domaine des universitaires, les chercheurs prédisent les structures de protéines dont les structures ont été expérimentalement résolues, mais pas encore rendues publiques.

Certaines des prédictions d’AlphaFold étaient comparables à de très bons modèles expérimentaux, et certains scientifiques ont déclaré que l’influence du réseau serait historique. La semaine dernière, DeepMind a publié le code source de la dernière version d’AlphaFold, ainsi qu’une description détaillée de son développement¹ (les équipes académiques ont déjà commencé à utiliser ces ressources pour faire des prédictions utiles). Au cours du processus de préparation du code d’AlphaFold pour une diffusion publique, DeepMind l’a affiné pour que le code s’exécute plus efficacement. Certaines des prédictions CASP ont pris des jours, mais la version mise à jour d’AlphaFold pouvait désormais les calculer en quelques minutes ou quelques heures.

Avec cette efficacité supplémentaire, l’équipe DeepMind a entrepris de prédire les structures de presque toutes les protéines connues codées par le génome humain, ainsi que celles de 20 organismes modèles. Les structures sont disponible dans une base de données maintenu par EMBL-EBI (European Molecular Biology Laboratory European Bioinformatics Institute) à Hinxton, Royaume-Uni.

En plus des structures prédites, qui couvrent 98,5% des protéines humaines connues et un pourcentage similaire pour d’autres organismes, AlphaFold a généré une mesure de la confiance de ses prédictions. « Nous voulons donner aux expérimentateurs et aux biologistes un signal très clair sur les parties des prédictions sur lesquelles ils doivent s’appuyer », déclare Kathryn Tunyasuvunakool, ingénieur scientifique chez DeepMind et premier auteur d’un La nature article décrivant les prédictions du protéome humain². Pour le protéome humain, 58% de ses prédictions pour l’emplacement des acides aminés individuels étaient suffisamment bonnes pour avoir confiance en la forme des plis de la protéine, explique Tunyasuvunakool. Un sous-ensemble de ces prédictions – 36% du total – sont potentiellement suffisamment précis pour détailler les caractéristiques atomiques utiles pour la conception de médicaments, telles que le site actif d’une enzyme.

Même les prédictions les moins précises peuvent offrir des informations. Les biologistes pensent qu’une grande partie des protéines humaines et celles d’autres eucaryotes – des organismes dont les cellules ont des noyaux – contiennent des régions intrinsèquement désordonnées et ne prennent une structure définie qu’avec d’autres molécules. « De nombreuses protéines sont simplement ondulantes en solution, elles n’ont pas de structure fixe », explique John Jumper, chercheur principal d’AlphaFold. Certaines des régions qu’AlphaFold a prédites avec une faible confiance correspondent à celles que les biologistes soupçonnent d’être désordonnées, explique Pushmeet Kohli, responsable de l’IA pour la science chez DeepMind.

Selon les chercheurs, déterminer comment les protéines individuelles interagissent avec d’autres acteurs cellulaires est l’un des plus grands défis pour les prédictions d’AlphaFold. Pour la compétition CASP, la plupart de ses prédictions concernaient des unités de repliement indépendantes d’une protéine, appelées domaines. Mais le protéome humain, et ceux d’autres organismes, contient des protéines avec de multiples domaines qui se replient de manière semi-indépendante. Les cellules humaines contiennent également des molécules constituées de multiples chaînes de protéines en interaction, telles que des récepteurs sur les membranes cellulaires.

Déluge de données

Les quelque 365 000 prédictions de structure déposées cette semaine devraient atteindre 130 millions – près de la moitié de toutes les protéines connues – d’ici la fin de l’année, déclare Sameer Velankar, bioinformaticien structural à l’EMBL-EBI. La base de données sera mise à jour au fur et à mesure de l’identification de nouvelles protéines et de l’amélioration des prédictions. « Ce n’est pas une ressource à laquelle vous vous attendez à avoir accès », déclare Tunyasuvunakool, et elle est impatiente de voir ce que les scientifiques proposent.

Les chercheurs utilisent déjà AlphaFold et des outils connexes pour donner un sens aux données expérimentales générées à l’aide de la cristallographie aux rayons X et de la cryomicroscopie électronique. Marcelo Sousa, biochimiste à l’Université du Colorado Boulder, a utilisé AlphaFold pour créer des modèles à partir de données radiographiques de protéines que les bactéries utilisent pour échapper à un antibiotique appelé colistine. Les parties du modèle expérimental qui différaient de la prédiction AlphaFold étaient généralement des régions que le logiciel avait attribuées avec une faible confiance, note Sousa, signe qu’AlphaFold prédit avec précision ses limites.

Pourtant, les biologistes voudront continuer à comparer ces prédictions aux données expérimentales pour mieux comprendre leur fiabilité, explique Venki Ramakrishnan, biologiste structurale au MRC Laboratory of Molecular Biology à Cambridge, au Royaume-Uni. « Nous devons pouvoir faire confiance à ces données », ajoute Orengo.

Jones est impressionné par ce que le réseau a réalisé. Mais il dit que bon nombre des modèles prédits par AlphaFold auraient pu être générés avec des logiciels antérieurs développés par des universitaires. « Pour la plupart des protéines, ces résultats sont probablement assez bons pour beaucoup de choses que vous voulez faire. » Les scientifiques déterminés à obtenir la structure d’une protéine particulière pourraient probablement réussir en utilisant des approches expérimentales.

Mais la disponibilité de tant de structures protéiques est susceptible de marquer un « changement de paradigme » en biologie, déclare Mohammed AlQuraishi, biologiste informatique à l’Université Columbia à New York qui travaille sur la prédiction de la structure des protéines. Son domaine a consacré tellement de temps et d’énergie à prédire des structures protéiques précises à cette échelle qu’il n’a pas encore déterminé ce que faire de telles ressources. « Tout ce que nous faisons aujourd’hui qui repose sur une séquence de protéines, nous pouvons maintenant le faire avec la structure des protéines. »

Orengo espère que la base de données l’aidera à mieux comprendre les contraintes structurelles des protéines. Elle a cartographié une base de données de protéines connues en environ 5 000 « familles structurelles », mais environ la moitié des protéines de la base de données sont exclues car il n’y a rien d’autre pour lequel une structure a été déterminée. Les prédictions d’AlphaFold pourraient aider à découvrir de nouvelles formes, dit-elle. « Nous verrons vraiment à quoi ressemble l’espace de pliage. »

Jones s’attend à ce qu’AlphaFold conduira à beaucoup d’introspection parmi les biologistes sur ce qu’il faut faire avec autant de structures – et la facilité d’en créer beaucoup plus. « Il y aura des conférences. Maintenant que nous avons 130 millions de modèles, en quoi cela change-t-il notre vision de la biologie ? Il se peut que cela ne change rien », dit-il. « Je soupçonne que ce sera le cas. »

Rate this post

L’IA de DeepMind prédit les structures d’une vaste réserve de protéines

Prédictions primées

Déluge de données

LAISSER UN COMMENTAIRE Annuler la réponse

Créez votre propre opéra de Noël avec le dernier doodad de Google

Comment acheter Ethereum – Forbes Advisor INDE