Google DeepMind a collaboré avec des érudits classiques pour créer un nouvel outil d’IA qui utilise des réseaux de neurones profonds pour aider les historiens à déchiffrer le texte des inscriptions endommagées de la Grèce antique. Le nouveau système, baptisé Ithaca, s’appuie sur un système de restauration de texte antérieur appelé Pythia.
Ithaque n’aide pas seulement les historiens à restaurer le texte, il peut également identifier le lieu d’origine d’un texte et la date de création, selon un nouveau document l’équipe de recherche publiée dans la revue Nature. En fait, Ithaque a déjà été utilisé pour aider à résoudre un débat en cours parmi les historiens sur les dates correctes pour un groupe d’anciens décrets athéniens. Une version interactive d’Ithaque est disponible gratuitement, et l’équipe fait son code open source.
De nombreuses sources anciennes, qu’elles soient écrites sur des rouleaux, des papyrus, de la pierre, du métal ou de la poterie, sont tellement endommagées que de gros morceaux de texte sont souvent illisibles. Déterminer l’origine des textes peut également être un défi, car ils ont probablement été déplacés plusieurs fois. Quant à déterminer avec précision quand ils ont été produits, la datation au radiocarbone et des méthodes similaires ne peuvent pas être utilisées car elles peuvent endommager les artefacts inestimables. Ainsi, la tâche intimidante et fastidieuse d’interpréter ces textes incomplets incombe aux soi-disant épigraphistes qui se spécialisent dans ces compétences.
En tant que gens de DeepMind écrit en 2019:
L’un des problèmes liés au discernement du sens des fragments incomplets de texte est qu’il existe souvent de multiples solutions possibles. Dans de nombreux jeux de mots et puzzles, les joueurs devinent des lettres pour compléter un mot ou une phrase – plus il y a de lettres spécifiées, plus les solutions possibles deviennent limitées. Mais contrairement à ces jeux, où les joueurs doivent deviner une phrase isolément, les historiens qui restaurent un texte peuvent estimer la probabilité de différentes solutions possibles en fonction d’autres indices contextuels dans l’inscription, tels que les considérations grammaticales et linguistiques, la mise en page et la forme, les parallèles textuels et le contexte historique.
Pour aider à accélérer le processus, Yannis Assael, Thea Sommerschield et Jonathan Prag de DeepMind ont collaboré avec des chercheurs de l’Université d’Oxford pour développer Pythia, un système de restauration de texte ancien nommé d’après le grande prêtresse qui a servi à l’Oracle de Delphes en prononçant les déclarations du dieu Apollon.
La première étape des chercheurs a été de convertir la base de données du Packard Humanities Institute (PHI) – la plus grande collection numérique d’inscriptions grecques anciennes – en texte actionnable par machine qu’ils ont appelé PHI-ML. Cela représentait environ 35 000 inscriptions et plus de 3 millions de mots du 7ème siècle avant notre ère au 5ème siècle de notre ère. Ensuite, les chercheurs ont formé Pythia (avec les mots et les caractères individuels comme entrées) pour prédire les lettres manquantes des mots dans ces inscriptions. Pythia a été formé à l’utilisation des capacités de reconnaissance de formes des réseaux de neurones profonds.
Face à une inscription incomplète, Pythia a produit jusqu’à 20 lettres ou mots différents possibles qui pourraient combler les lacunes, ainsi que le niveau de confiance pour chaque possibilité. C’était aux historiens (c.-à-d. les « experts du domaine ») de passer au crible ces possibilités et de prendre une décision finale en fonction de leur expertise en la matière.
L’équipe a testé le système en comparant les résultats de Pythia sur la réalisation de 2 949 inscriptions avec ceux d’étudiants diplômés d’Oxford en épigraphie. La sortie de Pythia avait un taux d’erreur de 30,1%, contre 57,3% pour les étudiants. Pythia a également pu accomplir la tâche beaucoup plus rapidement, ne nécessitant que quelques secondes pour déchiffrer 50 inscriptions, contre deux heures pour les étudiants.
Et maintenant, Assael et ses cohortes sont de retour avec Ithaque. Dans l’annonceEn plus de la capacité de restauration du texte, Ithaca fait des prédictions sur l’attribution géographique des inscriptions incomplètes. La distribution des probabilités sur toutes les prédictions possibles est utilement visualisée sur une carte, « pour faire la lumière sur les connexions géographiques sous-jacentes possibles à travers le monde antique », écrit l’équipe dans un article de blog d’accompagnement. Pour l’attribution chronologique, Ithaque produit une distribution de ses dates prédites entre 800 avant notre ère et 800 de notre ère.
Les tests ont révélé qu’Ithaca à elle seule est capable d’atteindre une précision de 62% dans la restauration du texte endommagé, contre 25% pour les historiens humains. Mais la combinaison de l’homme et de la machine augmente la précision globale à 72%, ce qui Assael et coll.. démontre « le potentiel de coopération homme-machine » sur le terrain. Quant à attribuer les inscriptions à leur emplacement d’origine, Ithaque peut le faire avec une précision de 71% et dater les inscriptions dans les 30 ans.
Ithaque a déjà eu l’occasion de démontrer son utilité aux historiens dans un cas test impliquant un ensemble de décrets athéniens qui ont été au centre de une controverse sur les rencontres. Les historiens avaient précédemment fixé les dates des décrets à au plus tard 446 avant notre ère. Cette appréciation était basé sur certaines formes de lettres (connues sous le nom de sigma attique à trois barres) que la bureaucratie athénienne utilisait pendant cette période. Après 446 avant notre ère, les Athéniens sont passés à un sigma ionique à quatre barres pour ses décrets.
C’était la méthodologie de datation standard pour les inscriptions athéniennes jusqu’à ce que d’autres historiens commencent à remettre en question ses hypothèses, d’autant plus que plusieurs décrets datés de cette façon semblaient entrer en conflit avec les récits historiques de Thucydide. Ces historiens ont découvert des preuves que la forme de la lettre attique avait continué à être utilisée dans des documents officiels longtemps après 446 avant notre ère. Ils ont conclu que les dates de beaucoup de ces décrets devraient être antérieures, vers 420 avant notre ère. Ithaque a prédit une date de 421 avant notre ère, tout à fait en accord avec cette conclusion.