Apple a été un peu pris au dépourvu lorsque la technologie de l’IA générative a commencé à décoller. Cependant, le géant technologique de Cupertino travaillerait avec ses modèles LLM et viserait à intégrer une utilisation plus large de la technologie dans les prochaines versions d'iOS et de Siri.
Les chercheurs d'Apple AI affirment avoir réalisé une avancée significative dans l'utilisation des grands modèles linguistiques (LLM) sur les iPhones et autres appareils Apple dotés de moins de mémoire en introduisant une technique ingénieuse de mémoire flash.
Le document de recherche titré « LLM en un éclair : inférence efficace de grands modèles de langage avec une mémoire limitée » a été publié le 12 décembre 2023, mais a attiré une plus grande attention lorsque Hugging Face, le site Web le plus populaire permettant aux scientifiques de l'IA d'afficher leurs travaux, l'a annoncé ce mercredi. Il s'agit du deuxième document de recherche d'Apple sur l'IA générative ce mois-ci et le dernier d'une série de mesures permettant aux modèles de génération d'images, comme Stable Diffusion, de fonctionner sur ses puces personnalisées.
LLM sur iPhone
Jusqu'à cette avancée majeure, il était considéré comme impossible d'exécuter de grands modèles de langage sur des appareils dotés d'une mémoire limitée, car les LLM nécessitent une grande quantité de RAM pour stocker les données et les processus gourmands en mémoire. Pour lutter contre cela, les chercheurs d'Apple ont mis au point une technologie permettant de stocker les données sur la mémoire flash, la mémoire secondaire utilisée pour stocker des images, des documents et des applications.
Les chercheurs d'Apple disent que « relève le défi de l'exécution efficace des LLM qui dépassent la capacité DRAM disponible en stockant les paramètres du modèle sur la mémoire flash mais en les amenant à la demande dans la DRAM.»
Par conséquent, l'intégralité du LLM est toujours stockée sur l'appareil, mais son utilisation dans la RAM pourrait se faire en travaillant avec la mémoire flash, une forme de mémoire virtuelle. Ce n'est pas très différent de la façon dont cela se fait sur macOS pour les tâches nécessitant beaucoup de mémoire.
En termes simples, les chercheurs d'Apple ont intelligemment contourné les limitations en utilisant deux techniques permettant de minimiser le transfert de données et d'optimiser le débit de la mémoire flash :
Fenêtrage : Imaginez cela en termes de moyen de recycler les données. Au lieu de charger des données à chaque fois, le modèle d’IA réutilise une partie des données existantes qu’il a précédemment traitées. Cela signifie qu’il est moins nécessaire de récupérer constamment des données et de les stocker en mémoire, ce qui rend le processus plus rapide et plus fluide.
Regroupement lignes-colonnes : Cette technique est similaire à la lecture d’un texte en morceaux plus gros plutôt qu’en un seul mot chacun. Les données peuvent être lues plus rapidement à partir de la mémoire flash lorsqu'elles sont regroupées plus efficacement, augmentant ainsi la capacité de l'IA à comprendre et à générer du langage.
Le document de recherche propose que la combinaison de ces techniques permettra aux modèles d'IA de pouvoir exécuter au moins deux fois la taille de la mémoire d'un iPhone. Cette méthode devrait accélérer la vitesse de les processeurs conventionnels (CPU) 5 fois plus rapides et 20 à 25 fois plus rapides pour les processeurs graphiques (GPU).
L'IA sur iPhone
Les nouveaux progrès en matière d'efficacité de l'IA ont ouvert de nouvelles possibilités pour les futurs iPhone, notamment des capacités Siri plus sophistiquées et une traduction linguistique en temps réel, ainsi que des fonctionnalités avancées basées sur l'IA pour la photographie et la réalité augmentée. Cette technologie permettra également aux iPhones d'exécuter des chatbots et des assistants IA sophistiqués sur l'appareil sur lesquels Apple travaillerait.