Image de deux traces multicolores de structures complexes.

Grâce au développement de la technologie de séquençage de l’ADN, il est devenu trivial d’obtenir la séquence de bases qui codent pour une protéine et de la traduire en séquence d’acides aminés qui composent la protéine. Mais à partir de là, on se retrouve souvent coincé. La fonction réelle de la protéine n’est spécifiée qu’indirectement par sa séquence. Au lieu de cela, la séquence dicte la façon dont la chaîne d’acides aminés se plie et se fléchit dans l’espace tridimensionnel, formant une structure spécifique. Cette structure est généralement ce qui dicte la fonction de la protéine, mais son obtention peut nécessiter des années de travail en laboratoire.

Pendant des décennies, les chercheurs ont essayé de développer un logiciel capable de prendre une séquence d’acides aminés et de prédire avec précision la structure qu’elle formera. Bien qu’il s’agisse d’une question de chimie et de thermodynamique, nous n’avons eu qu’un succès limité, jusqu’à l’année dernière. C’est alors que le groupe DeepMind AI de Google a annoncé l’existence d’AlphaFold, qui peut généralement prédire les structures avec un degré élevé de précision.

À l’époque, DeepMind a déclaré qu’il donnerait à tout le monde les détails de sa percée dans un futur article évalué par des pairs, qu’il a finalement publié hier. Pendant ce temps, certains chercheurs universitaires se sont lassés d’attendre, ont pris certaines des idées de DeepMind et se sont approprié les leurs. Le document décrivant cet effort a également été publié hier.

La saleté sur AlphaFold

DeepMind a déjà décrit la structure de base d’AlphaFold, mais le nouveau document fournit beaucoup plus de détails. La structure d’AlphaFold implique deux algorithmes différents qui communiquent entre eux concernant leurs analyses, permettant à chacun d’affiner sa sortie.

L’un de ces algorithmes recherche des séquences de protéines qui sont des parents évolutifs de celle en cause, et il détermine comment leurs séquences s’alignent, en s’ajustant pour de petits changements ou même des insertions et des suppressions. Même si nous ne connaissons pas la structure d’aucun de ces parents, ils peuvent toujours fournir des contraintes importantes, nous indiquant des choses comme si certaines parties de la protéine sont toujours chargées.

L’équipe AlphaFold dit que cette partie des choses a besoin d’environ 30 protéines apparentées pour fonctionner efficacement. Il propose généralement un alignement de base rapidement, puis l’affine. Ces types de raffinements peuvent impliquer de déplacer les écarts afin de placer les acides aminés clés au bon endroit.

Le deuxième algorithme, qui s’exécute en parallèle, divise la séquence en morceaux plus petits et tente de résoudre la structure de chacun d’eux tout en s’assurant que la structure de chaque morceau est compatible avec la structure plus grande. C’est pourquoi l’alignement de la protéine et de ses proches est essentiel ; si les acides aminés clés se retrouvent dans le mauvais morceau, alors obtenir la bonne structure sera un véritable défi. Ainsi, les deux algorithmes communiquent, permettant aux structures proposées de revenir à l’alignement.

La prédiction structurelle est un processus plus difficile, et les idées originales de l’algorithme subissent souvent des changements plus importants avant que l’algorithme ne s’attelle à affiner la structure finale.

Le nouveau détail le plus intéressant de l’article est peut-être l’endroit où DeepMind passe et désactive différentes parties des algorithmes d’analyse. Celles-ci montrent que, sur les neuf fonctions différentes qu’elles définissent, toutes semblent contribuer au moins un peu à la précision finale, et une seule a un effet dramatique sur elle. Celui-ci implique d’identifier les points d’une structure proposée qui sont susceptibles de nécessiter des changements et de les signaler pour une attention supplémentaire.

La compétition

Dans une annonce programmée pour la publication de l’article, le PDG de DeepMind, Demis Hassabis, a déclaré : « Nous nous sommes engagés à partager nos méthodes et à fournir un accès large et gratuit à la communauté scientifique. Aujourd’hui, nous faisons le premier pas vers la réalisation de cet engagement en partageant le code source et la publication de la méthodologie complète du système.”

Mais Google avait déjà décrit la structure de base du système, ce qui a amené certains chercheurs du monde universitaire à se demander s’ils pouvaient adapter leurs outils existants à un système plus structuré comme celui de DeepMind. Et, avec un décalage de sept mois, les chercheurs ont eu amplement le temps d’agir sur cette idée.

Les chercheurs ont utilisé la description initiale de DeepMind pour identifier cinq caractéristiques d’AlphaFold qui, selon eux, différaient de la plupart des méthodes existantes. Ils ont donc tenté de mettre en œuvre différentes combinaisons de ces fonctionnalités et de déterminer lesquelles ont entraîné des améliorations par rapport aux méthodes actuelles.

Le plus simple pour se mettre au travail était d’avoir deux algorithmes parallèles : l’un dédié à l’alignement des séquences, l’autre effectuant des prédictions structurelles. Mais l’équipe a fini par diviser la partie structurelle des choses en deux fonctions distinctes. L’une de ces fonctions estime simplement la distance bidimensionnelle entre les différentes parties de la protéine, et l’autre gère l’emplacement réel dans l’espace tridimensionnel. Tous trois échangent des informations, chacun fournissant aux autres des indications sur les aspects de sa tâche qui pourraient nécessiter un affinement supplémentaire.

Le problème avec l’ajout d’un troisième pipeline est qu’il augmente considérablement les exigences matérielles, et les universitaires en général n’ont pas accès aux mêmes types d’actifs informatiques que DeepMind. Ainsi, bien que le système, appelé RoseTTAFold, n’ait pas aussi bien fonctionné qu’AlphaFold en termes de précision de ses prédictions, il était meilleur que tous les systèmes précédents que l’équipe pouvait tester. Mais, étant donné le matériel sur lequel il était exécuté, il était également relativement rapide, prenant environ 10 minutes lorsqu’il était exécuté sur une protéine de 400 acides aminés.

Comme AlphaFold, RoseTTAFold divise la protéine en morceaux plus petits et les résout individuellement avant d’essayer de les assembler dans une structure complète. Dans ce cas, l’équipe de recherche s’est rendu compte que cela pourrait avoir une application supplémentaire. De nombreuses protéines forment des interactions étendues avec d’autres protéines pour fonctionner – l’hémoglobine, par exemple, existe sous la forme d’un complexe de quatre protéines. Si le système fonctionne comme il se doit, lui donner deux protéines différentes devrait lui permettre de comprendre leurs deux structures. et où ils interagissent les uns avec les autres. Des tests ont montré que cela fonctionnait réellement.

Concurrence saine

Ces deux articles semblent décrire des développements positifs. Pour commencer, l’équipe DeepMind mérite tout le crédit pour les connaissances qu’elle a eues sur la structuration de son système en premier lieu. De toute évidence, la mise en place de processus parallèles qui communiquent les uns avec les autres a produit un saut majeur dans notre capacité à estimer les structures des protéines. L’équipe universitaire, plutôt que d’essayer simplement de reproduire ce que DeepMind a fait, a simplement adopté certaines des principales idées et les a emmenées dans de nouvelles directions.

À l’heure actuelle, les deux systèmes présentent clairement des différences de performances, à la fois en termes de précision de leur sortie finale et en termes de temps et de ressources de calcul qui doivent y être consacrés. Mais avec les deux équipes apparemment engagées dans l’ouverture, il y a de fortes chances que les meilleures caractéristiques de chacune puissent être adoptées par l’autre.

Quel que soit le résultat, nous sommes clairement dans un nouvel endroit par rapport à ce que nous étions il y a quelques années à peine. Les gens essaient de résoudre les prédictions de la structure des protéines depuis des décennies, et notre incapacité à le faire est devenue plus problématique à un moment où les génomes nous fournissent de grandes quantités de séquences de protéines que nous ne savons pas trop comment interpréter. La demande de temps sur ces systèmes est susceptible d’être intense, car une très grande partie de la communauté de la recherche biomédicale devrait bénéficier du logiciel.

Science, 2021. DOI : 10.1126/science.abj8754

Nature, 2021. DOI : 10.1038/s41586-021-03819-2 (À propos des DOI).

Leave a Reply