Une énorme base de données internationale lancée aujourd’hui aidera les épidémiologistes à répondre à des questions brûlantes sur le coronavirus SARS-CoV-2, telles que la rapidité avec laquelle les nouvelles variantes se propagent parmi les personnes, si les vaccins les protègent et combien de temps dure l’immunité au COVID-19.
Contrairement au tableau de bord global COVID-19 maintenu par l’Université Johns Hopkins à Baltimore, Maryland, et d’autres trackers populaires qui répertorient les infections et les décès globaux au COVID-19, le nouveau référentiel de l’initiative de science des données appelé Global.health recueille une quantité sans précédent d’informations anonymisées sur des cas individuels en un seul endroit. Pour chaque individu, la base de données comprend jusqu’à 40 variables associées, telles que la date à laquelle ils ont eu les premiers symptômes du COVID-19, la date à laquelle ils ont reçu un test positif et leurs antécédents de voyage.
Des données individuelles comme celles-ci fournissent les indices dont les épidémiologistes ont besoin pour déterminer comment les maladies se propagent, explique Caitlin Rivers, épidémiologiste chez Johns Hopkins, qui fait partie du projet. «Au moment où nous comprenons la gravité d’une épidémie, il est souvent trop tard», dit-elle. «Les données peuvent fermer cette boucle et accélérer le processus.»
Les chercheurs espèrent que la base de données les aidera à surveiller les variantes de coronavirus et les vaccins dans les mois à venir, et fournira un modèle pour suivre les données en temps réel sur les futures épidémies.
Le référentiel a été créé par 21 chercheurs de 7 établissements universitaires aux États-Unis et en Europe, avec le soutien technique et financier de Google et de la Fondation Rockefeller. Jusqu’à présent, l’équipe a collecté des informations sur 24 millions de cas dans quelque 150 pays.
Rivers ajoute qu’une base de données comme celle-ci aurait été utile au début de l’épidémie de SRAS-CoV-2. Les épidémiologistes auraient pu vérifier que le coronavirus se propageait fréquemment de personne à personne en Chine avant même que l’Organisation mondiale de la santé ne le confirme le 23 janvier de l’année dernière – contribuant peut-être à enrayer la pandémie plus tôt.
Plusieurs scientifiques affirment que l’avènement d’un référentiel complet, international et accessible au public alimentera la recherche sur plusieurs fronts. «C’est vraiment bien et cela doit être fait», déclare Robert Garry, virologue à l’Université Tulane de la Nouvelle-Orléans, en Louisiane. « Rien de tel n’existe parce que c’est si difficile à faire. »
Un effort collectif
Chaque fois qu’une épidémie se produit, les épidémiologistes collectent et organisent des informations tirées d’articles de journaux et d’agences de santé dans des feuilles de calcul maison. Les détails sur les symptômes d’une personne, son âge, la façon dont elle a pu être infectée, etc. aident les chercheurs à déterminer la cause d’une maladie, sa contagiosité et son taux de mortalité.
À la mi-janvier 2020, les épidémiologistes faisaient exactement cela pour le SRAS-CoV-2 – mais n’étaient pas parvenus à un consensus sur leurs conclusions. Sam Scarpino, un épidémiologiste qui dirige le Emergent Epidemics Lab de la Northeastern University à Boston, Massachusetts, a tweeté que la preuveNous n’avons pas confirmé la transmission interhumaine durable. Et il se souvient que Rivers lui avait répondu dans un message direct: « Elle a dit: ‘Mec, je pense que tu as tort.' »
Les données étaient encore troubles. Mais un autre épidémiologiste, Moritz Kraemer de l’Université d’Oxford, avait créé et partagé sa propre feuille de calcul Google avec la communauté. Scarpino a analysé les chiffres, et concédé que Rivers avait raison.
Bientôt, des dizaines d’épidémiologistes ajoutaient des informations sur des cas du monde entier à cette feuille de calcul. En même temps, eux et d’autres étaient en cours d’analyse il. Par exemple, Adam Kucharski, un épidémiologiste à la London School of Hygiene & Tropical Medicine, et ses collègues ont utilisé les données pour estimer qu’il y avait environ dix fois plus de personnes à Wuhan, en Chine, avec des symptômes du COVID-19 en janvier. confirmé par les responsables de la santé, en partie sur la base du nombre de personnes qui ont voyagé hors du pays et ont eu une infection confirmée1.
Après avoir dépassé environ 100 000 cas, la feuille de calcul d’origine était surchargée. En avril, l’équipe a reçu l’aide d’ingénieurs et de développeurs de produits de Google et de Google.org, la branche caritative de la société de la Silicon Valley. Ensemble, ils ont écrit des codes informatiques qui téléchargeraient automatiquement les données quotidiennes sur les coronavirus d’environ 60 gouvernements dans un format standardisé, des codes qui suppriment les entrées en double et un algorithme pour fusionner les informations ajoutées du monde entier dans un référentiel unique basé sur le cloud.
Privilégier la confidentialité
Tout le monde peut s’inscrire pour accéder à jusqu’à 8 gigaoctets de données anonymisées sur la dernière version de la base de données Global.health. La moitié des 24 millions de cas collectés ont des données pour une douzaine de variables, et environ 10% en ont plus, dit Scarpino. Pour l’instant, les visualisations de données du site Web se limitent aux cartes affichant les données collectées par l’équipe. Scarpino note que l’infographie n’a pas été une priorité, car elle a donné la priorité à la standardisation de la collecte de données et à la navigation sur les problèmes de confidentialité afin que les gens du monde entier puissent ajouter à la base de données. Les architectes du projet ont consulté des spécialistes juridiques et éthiques sur la manière de gérer et de partager en toute sécurité des données anonymisées sur des personnes, dit-il, qui sont souvent étroitement surveillées par les agences gouvernementales, les universités et les hôpitaux.
Julien Riou, épidémiologiste à l’Université de Berne en Suisse, se réjouit d’explorer la base de données. Jusqu’à présent, il a basé une grande partie de son travail sur le COVID-19 sur des données d’une cohorte suisse, mais il dit qu’un vaste ensemble de données internationales pourrait fournir de meilleures réponses à des questions fondamentales, telles que le taux réel d’infection dans les pays du monde entier. «Plus de données signifie que nous pouvons nous rapprocher de la vérité», dit-il. D’autres chercheurs sont d’accord, ajouter que des informations sur le statut vaccinal d’une personne ou si elle est infectée par une variante du coronavirus pourrait aider à répondre à des questions scientifiques pressantes sur l’immunité dans les mois à venir.
Kucharski accueille des fonds pour le projet. «Un grand nombre de ces bases de données sont issues du crowdsourcing, mais si vous comptez uniquement sur des bénévoles, ce n’est souvent pas durable», dit-il.
Scarpino espère à terme étendre la base de données COVID-19 sur une plate-forme adaptable pour enquêter sur d’autres maladies – en particulier la prochaine épidémie émergente. Mais faire cela, dit-il, nécessiterait une entreprise, une organisation à but non lucratif ou un autre lieu pour faire avancer le projet – une leçon qu’il a tirée du logiciel avec lequel il a travaillé auparavant, qui suivait à l’origine les données de santé en Syrie, mais est maintenant utilisé dans plus d’une douzaine de pays après avoir été vendu à une société de données. Il dit: « Cela ne peut pas être un éclair dans la casserole. »