Le laboratoire de recherche sur l’IA DeepMind a créé la carte la plus complète des protéines humaines à ce jour en utilisant l’intelligence artificielle. La société, une filiale d’Alphabet, société mère de Google, publie les données gratuitement, certains scientifiques comparant l’impact potentiel des travaux à celui du Human Genome Project, un effort international visant à cartographier chaque gène humain.

Les protéines sont de longues molécules complexes qui effectuent de nombreuses tâches dans le corps, de la construction des tissus à la lutte contre les maladies. Leur finalité est dictée par leur structure, qui se plie comme un origami en des formes complexes et irrégulières. Comprendre comment une protéine se replie aide à expliquer sa fonction, ce qui à son tour aide les scientifiques dans diverses tâches, de la recherche fondamentale sur le fonctionnement du corps à la conception de nouveaux médicaments et traitements.

Auparavant, la détermination de la structure d’une protéine reposait sur des expériences coûteuses et chronophages. Mais l’année dernière, DeepMind a montré qu’il pouvait produire prédictions précises de la structure d’une protéine en utilisant un logiciel d’IA appelé AlphaFold. Maintenant, la société publie des centaines de milliers de prédictions faites par le programme au public.

« Je vois cela comme le point culminant de l’ensemble de la vie de DeepMind de plus de 10 ans », a déclaré le PDG et cofondateur de l’entreprise, Demis Hassabis. Le bord. « Depuis le début, c’est ce que nous nous sommes fixés : faire des percées dans l’IA, tester cela sur des jeux comme Go et Atari, [and] appliquer cela aux problèmes du monde réel, pour voir si nous pouvons accélérer les percées scientifiques et les utiliser au profit de l’humanité.

Publicité

Un Gif De Deux Modèles De Plis Protéiques Rotatifs Composés De Boucles Et De Lignes Tourbillonnantes.  Les Prédictions D'Alphafold Sont Superposées Sur Les Modèles, Avec Une Précision De 90,7 Gdt À Gauche Et Une Précision De 93,3 Gdt À Droite.

Deux exemples de structures protéiques prédites par AlphaFold (en bleu) comparées aux résultats expérimentaux (en vert).
Image : DeepMind

Il existe actuellement environ 180 000 structures protéiques disponibles dans le domaine public, chacune produite par des méthodes expérimentales et accessible via la Protein Data Bank. DeepMind publie des prédictions sur la structure de quelque 350 000 protéines dans 20 organismes différents, y compris des animaux comme les souris et les mouches des fruits, et des bactéries comme E. coli. (Il y a un certain chevauchement entre les données de DeepMind et les structures protéiques préexistantes, mais combien il est difficile de quantifier exactement en raison de la nature des modèles.) Plus important encore, le communiqué comprend des prédictions pour 98 pour cent de toutes les protéines humaines, environ 20 000 différentes structures, qui sont collectivement connues sous le nom de protéome humain. Ce n’est pas le premier ensemble de données publiques sur les protéines humaines, mais c’est le plus complet et le plus précis.

S’ils le souhaitent, les scientifiques peuvent télécharger l’intégralité du protéome humain pour eux-mêmes, explique le responsable technique d’AlphaFold, John Jumper. « Il existe effectivement un HumanProteome.zip, je pense qu’il fait environ 50 gigaoctets », a déclaré Jumper. Le bord. « Vous pouvez le mettre sur une clé USB si vous le souhaitez, même si cela ne vous servirait à rien sans un ordinateur pour l’analyse ! »

Après le lancement de cette première tranche de données, DeepMind prévoit de continuer à enrichir le stock de protéines, qui sera maintenu par le laboratoire phare des sciences de la vie en Europe, le Laboratoire européen de biologie moléculaire (EMBL). D’ici la fin de l’année, DeepMind espère publier des prédictions pour 100 millions de structures protéiques, un ensemble de données qui sera « transformateur pour notre compréhension du fonctionnement de la vie », selon Edith Heard, directrice générale de l’EMBL.

Les données seront gratuites à perpétuité pour les chercheurs scientifiques et commerciaux, a déclaré Hassabis. « Tout le monde peut l’utiliser pour n’importe quoi », a noté le PDG de DeepMind lors d’un point de presse. « Ils ont juste besoin de créditer les personnes impliquées dans la citation. »

Comprendre la structure d’une protéine est utile pour les scientifiques dans de nombreux domaines. Les informations peuvent aider à concevoir de nouveaux médicaments, à synthétiser de nouvelles enzymes qui décomposent les déchets et à créer des cultures résistantes aux virus ou aux conditions météorologiques extrêmes. Déjà, les prédictions de protéines de DeepMind sont utilisées pour la recherche médicale, y compris en étudiant le fonctionnement du SARS-CoV-2, le virus qui cause le COVID-19.

De nouvelles données accéléreront ces efforts, mais les scientifiques notent qu’il faudra encore beaucoup de temps pour transformer ces informations en résultats réels. « Je ne pense pas que cela changera la façon dont les patients sont traités dans l’année, mais cela aura certainement un impact énorme pour la communauté scientifique », Marcelo C. Sousa, professeur au département de biochimie de l’Université du Colorado. , Raconté Le bord.

Les scientifiques devront s’habituer à avoir de telles informations à portée de main, explique Kathryn Tunyasuvunakool, chercheuse senior chez DeepMind. « En tant que biologiste, je peux confirmer que nous n’avons pas de manuel pour examiner même 20 000 structures, donc cela [amount of data] est extrêmement inattendu », a déclaré Tunyasuvunakool Le bord. « Analyser des centaines de milliers de structures, c’est fou.

Notamment, cependant, le logiciel de DeepMind produit prédictions des structures protéiques plutôt que des modèles déterminés expérimentalement, ce qui signifie que, dans certains cas, des travaux supplémentaires seront nécessaires pour vérifier la structure. DeepMind dit avoir passé beaucoup de temps à créer des métriques de précision dans son logiciel AlphaFold, qui classe le degré de confiance qu’il est pour chaque prédiction.

Proteins

Exemples de structures protéiques prédites par AlphaFold.
Image : DeepMind

Les prédictions des structures des protéines sont toujours extrêmement utiles, cependant. Déterminer la structure d’une protéine à l’aide de méthodes expérimentales est coûteux, prend du temps et repose sur de nombreux essais et erreurs. Cela signifie que même une prédiction à faible confiance peut économiser des années de travail aux scientifiques en les orientant dans la bonne direction pour la recherche.

Helen Walden, professeur de biologie structurale à l’Université de Glasgow, raconte Le bord que les données de DeepMind « allégeront considérablement » les goulots d’étranglement de la recherche, mais que « le travail laborieux et gourmand en ressources de la biochimie et de l’évaluation biologique, par exemple, des fonctions des médicaments » restera.

Sousa, qui a déjà utilisé les données d’AlphaFold dans son travail, affirme que pour les scientifiques, l’impact se fera sentir immédiatement. « Dans notre collaboration avec DeepMind, nous disposions d’un ensemble de données avec un échantillon de protéines que nous avions depuis 10 ans, et nous n’avions jamais réussi à développer un modèle qui correspondait », dit-il. « DeepMind a accepté de nous fournir une structure, et ils ont pu résoudre le problème en 15 minutes après que nous nous soyons assis dessus pendant 10 ans. »

Pourquoi le repliement des protéines est si difficile

Les protéines sont construites à partir de chaînes d’acides aminés, qui existent en 20 variétés différentes dans le corps humain. Comme toute protéine individuelle peut être composée de centaines d’acides aminés individuels, dont chacun peut se plier et se tordre dans des directions différentes, cela signifie que la structure finale d’une molécule a un nombre incroyablement grand de configurations possibles. Un estimation est que la protéine typique peut être pliée de 10 ^ 300 façons – c’est un 1 suivi de 300 zéros.

Parce que les protéines sont trop petites pour être examinées au microscope, les scientifiques ont dû déterminer indirectement leur structure en utilisant des méthodes coûteuses et compliquées comme la résonance magnétique nucléaire et la cristallographie aux rayons X. L’idée de déterminer la structure d’une protéine simplement en lisant une liste de ses acides aminés constitutifs a été longtemps théorisée mais difficile à réaliser, conduisant beaucoup à la décrire comme un « grand défi » de la biologie.

Ces dernières années, cependant, les méthodes de calcul – en particulier celles utilisant l’intelligence artificielle – ont suggéré qu’une telle analyse est possible. Avec ces techniques, les systèmes d’IA sont entraînés sur des ensembles de données de structures protéiques connues et utilisent ces informations pour créer leurs propres prédictions.

Median Free Modelling Accuracy

Le logiciel AlphaFold de DeepMind a considérablement augmenté la précision du repliement informatique des protéines, comme le montrent ses performances dans la compétition CASP.
Image : DeepMind

De nombreux groupes travaillent sur ce problème depuis des années, mais le large éventail de talents d’IA de DeepMind et l’accès aux ressources informatiques lui ont permis d’accélérer considérablement les progrès. L’année dernière, la société a participé à une compétition internationale de repliement de protéines connue sous le nom de CASP et a ébloui la compétition. Ses résultats étaient si précis que le biologiste computationnel John Moult, l’un des co-fondateurs de CASP, a déclaré que « dans un certain sens, le problème [of protein folding] est résolu. »

Le programme AlphaFold de DeepMind a été mis à niveau depuis le concours CASP de l’année dernière et est maintenant 16 fois plus rapide. « Nous pouvons plier une protéine moyenne en quelques minutes, dans la plupart des cas en quelques secondes », explique Hassabis. La compagnie a également a publié le code sous-jacent pour AlphaFold la semaine dernière en tant qu’open source, permettant à d’autres de s’appuyer sur son travail à l’avenir.

Liam McGuffin, professeur à l’Université de Reading qui a développé certains des principaux logiciels de repliement de protéines du Royaume-Uni, a salué l’excellence technique d’AlphaFold, mais a également noté que le succès du programme reposait sur des décennies de recherches antérieures et de données publiques. « DeepMind dispose de vastes ressources pour maintenir cette base de données à jour et ils sont mieux placés pour le faire que n’importe quel groupe universitaire », a déclaré McGuffin. Le bord. « Je pense que les universitaires y seraient finalement arrivés, mais cela aurait été plus lent car nous n’avons pas autant de ressources. »

Pourquoi DeepMind s’en soucie-t-il ?

De nombreux scientifiques Le bord a parlé à noté la générosité de DeepMind en publiant ces données gratuitement. Après tout, le laboratoire appartient à Alphabet, société mère de Google, qui a investi d’énormes quantités de ressources dans des projets de soins de santé commerciaux. DeepMind lui-même perd beaucoup d’argent chaque année, et il y a eu nombreux rapports des tensions entre l’entreprise et sa maison mère sur des questions telles que l’autonomie de la recherche et la viabilité commerciale.

Hassabis, cependant, dit Le bord que la société a toujours prévu de rendre ces informations disponibles gratuitement, et que cela est un accomplissement de l’éthique fondatrice de DeepMind. Il souligne que le travail de DeepMind est utilisé dans de nombreux endroits chez Google – « presque tout ce que vous utilisez, il y a une partie de notre technologie qui en fait partie sous le capot » – mais que l’objectif principal de l’entreprise a toujours été la recherche fondamentale.

« L’accord lorsque nous avons été acquis est que nous sommes ici principalement pour faire progresser l’état des technologies AGI et AI, puis l’utiliser pour accélérer les percées scientifiques », a déclaré Hassabis. « [Alphabet] a beaucoup de divisions axées sur l’argent », ajoute-t-il, notant que l’accent mis par DeepMind sur la recherche « apporte toutes sortes d’avantages, en termes de prestige et de bonne volonté pour la communauté scientifique. Il existe de nombreuses façons d’obtenir de la valeur.

Hassabis prédit qu’AlphaFold est un signe des choses à venir – un projet qui montre l’énorme potentiel de l’intelligence artificielle pour gérer des problèmes compliqués comme la biologie humaine.

«Je pense que nous sommes à un moment vraiment excitant», dit-il. « Au cours de la prochaine décennie, nous, et d’autres dans le domaine de l’IA, espérons produire des percées étonnantes qui accéléreront véritablement les solutions aux très gros problèmes que nous avons ici sur Terre. »

Rate this post
Publicité
Article précédentLes Brésiliens passent plus de temps sur leurs smartphones que le reste du monde
Article suivantLes fans de Masters Of The Universe réagissent à l’arrivée de Netflix dans Revelation
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici