Une semaine seulement après que le groupe DeepMind AI de Google ait finalement décrit en détail ses efforts de biologie, la société publie un article qui explique comment elle a analysé presque toutes les protéines codées dans le génome humain et a prédit sa structure tridimensionnelle probable, une structure qui peut être critique. pour comprendre la maladie et concevoir des traitements. Dans un avenir très proche, toutes ces structures seront publiées sous licence Creative Commons via l’Institut Européen de Bioinformatique, qui héberge déjà une importante base de données de structures protéiques.
Lors d’une conférence de presse associée à la publication du journal, Demis Hassabis de DeepMind a clairement indiqué que la société ne s’arrêtait pas là. En plus des travaux décrits dans l’article, la société publiera des prédictions structurelles pour les génomes de 20 organismes de recherche majeurs, de la levure aux mouches des fruits en passant par les souris. Au total, le lancement de la base de données comprendra environ 350 000 structures de protéines.
Qu’y a-t-il dans une structure ?
Nous vient de décrire le logiciel de DeepMind la semaine dernière, nous n’entrerons donc pas dans les détails ici. L’effort est un système basé sur l’IA formé sur la structure des protéines existantes qui avait été déterminée (souvent laborieusement) par des expériences de laboratoire. Le système utilise cette formation, ainsi que les informations qu’il obtient des familles de protéines liées par l’évolution, pour prédire comment la chaîne d’acides aminés d’une protéine se replie dans un espace tridimensionnel.
La structure tridimensionnelle qui en résulte peut nous fournir des informations essentielles sur la protéine, telles que la façon dont elle interagit avec d’autres protéines et produits chimiques et où se produisent les réactions chimiques de la protéine. En utilisant la structure, les chercheurs peuvent apprendre comment des mutations spécifiques, comme celles qui causent des maladies génétiques, modifient la fonction de la protéine. Les chercheurs peuvent également utiliser la structure pour concevoir des produits chimiques qui peuvent interagir avec la protéine et modifier sa fonction, ce qui a conduit à des thérapies pour divers cancers et le VIH.
Normalement, ces structures sont déterminées en isolant la protéine, en la préparant pour l’imagerie et en la bombardant d’électrons. Ces techniques sont difficiles et prennent du temps, et elles échouent souvent. L’article estime que des décennies de travail en laboratoire nous ont laissé des informations structurelles pour seulement 17% de l’ensemble complet des protéines humaines.
Cela explique pourquoi les chercheurs ont également passé des décennies à chercher des moyens de prédire les structures des protéines en utilisant uniquement la séquence d’acides aminés qui les composent. Mais avant AlphaFold, la précision du logiciel n’était pas assez élevée pour être toujours utile.
La collection de protéines humaines
DeepMind n’a pas tenté de prédire la structure de chaque protéine du génome humain ; certains sont tout simplement trop gros pour être manipulés commodément. (La société a fixé la taille limite à 2 700 acides aminés, ce qui est malheureusement plus petit qu’un gène sur lequel j’ai passé une partie de mon clonage post-doc.) Mais la plupart des protéines sont bien plus petites que cela, donc le nombre final est de 98,5% de l’attendu protéines du génome. Certaines de ces protéines ne devraient exister que sur la base des caractéristiques des séquences d’ADN dans le génome humain.
Tout aussi important, AlphaFold inclut une estimation de confiance qui enregistre la probabilité que ses prédictions soient exactes. Tout compte fait, le logiciel est confiant quant à l’emplacement d’environ 60% des acides aminés qu’il a prédits, et il est très confiant sur un peu plus d’un tiers. En d’autres termes, les chercheurs ont une prédiction confiante sur la majeure partie de la structure de 40 pour cent des protéines humaines. Évidemment, cela signifie qu’il y a beaucoup de travail à faire avant de pouvoir dire que nous avons une bonne maîtrise de l’ensemble des protéines humaines. Mais c’est encore un parcelle plus que les 18 pour cent pour lesquels nous avons des structures réelles.
Il existe également une grande collection de protéines qui ne sont pas bien représentées par les structures existantes. Ceux incrustés dans la membrane d’une cellule sont difficiles à isoler et à utiliser, de sorte que les chercheurs n’ont pas résolu de nombreuses structures de ces protéines membranaires. Mais bien qu’il ait moins d’exemples dans ses données d’apprentissage, AlphaFold semble gérer assez bien les structures.
Où le système rencontre-t-il des problèmes ? De nombreuses protéines simplement ne forme pas une structure définie— en fait, leur fonction semble dépendre d’une structure complètement flexible pour fonctionner. De toute évidence, il est difficile de faire des prédictions précises d’une structure ici, car ces protéines (plus généralement, des sections de protéines) n’en ont pas. Il existe également de nombreuses protéines qui ne prennent leur structure que lorsqu’elles sont en contact avec une autre protéine ou un produit chimique. Étant donné qu’AlphaFold ne dispose pas de ces informations, il ne peut pas faire grand-chose.
En général, l’équipe DeepMind a découvert qu’AlphaFold avait une très faible confiance dans ses prédictions pour les régions désordonnées, et ils pourraient utiliser ces informations pour identifier les zones de protéines susceptibles d’être non structurées.
Tout devient public
À un moment donné dans un avenir proche (peut-être au moment où vous lisez ceci), toutes ces données seront disponibles sur un site internet dédié hébergé par l’Institut européen de bioinformatique, une organisation financée par l’Union européenne qui se décrit en partie comme suit : « Nous rendons les données biologiques publiques mondiales accessibles gratuitement à la communauté scientifique via une gamme de services et d’outils ». Les données AlphaFold ne feront pas exception ; une fois le lien ci-dessus en ligne, n’importe qui peut l’utiliser pour télécharger des informations sur la protéine humaine de son choix.
Ou, comme mentionné ci-dessus, la version souris, levure ou mouche des fruits. Les 20 organismes qui verront leurs données publiées ne sont également qu’un début. Demis Hassabis de DeepMind a déclaré qu’au cours des prochains mois, l’équipe ciblera chaque séquence génétique disponible dans les bases de données ADN. Au moment où ce travail est terminé, plus de 100 millions de protéines devraient avoir des structures prédites. Hassabis a conclu sa partie de l’annonce en déclarant: « Nous pensons que c’est la contribution la plus importante que l’IA ait apportée à la science à ce jour. » Il serait difficile de prétendre le contraire.
Cela dit, il reste encore quelques problèmes à régler. Il y aura sans aucun doute des améliorations apportées à l’algorithme avec le temps, il faudra donc un système pour gérer la mise à jour et la gestion des versions dans la base de données principale. DeepMind a également fait le code pour AlphaFold open source, il y a donc un risque de fourches et d’autres complications.
Mais ces problèmes sont des soucis pour l’avenir. Pour l’instant, nous pouvons tous nous asseoir et regarder les serveurs s’efforcer de servir presque tous les biologistes de la planète qui sont curieux de voir si une protéine qui les intéresse a une structure de haute qualité.
(Sauf votre humble auteur, car ma protéine de choix était trop surdimensionnée.)
La nature, 2021. DOI : 10.1038/s41586-021-03828-1 (À propos des DOI).