Il existe de nombreux modèles d’apprentissage en profondeur qui font diverses choses. Selon la tâche exacte qu’ils résolvent, ils peuvent être construits différemment. Certains utiliseront la convolution puis la mise en commun. Certains utiliseront plusieurs couches convolutives avant toute couche de mise en commun. Certains utiliseront le max-pooling. Certains utiliseront la mise en commun des moyennes. Certains auront un décrochage ajouté. Certains auront une couche de lot standard ici et là. Certains utiliseront des neurones sigmoïdes, certains utiliseront des demi-recitfiers. Certains classeront et donc optimiseront pour l’entropie croisée. D’autres minimiseront l’erreur quadratique moyenne. Certains utiliseront des couches de désengagement. Certains utiliseront des couches déconvolutionnelles. Certains utiliseront une descente de gradient stochastique avec un élan. Certains utiliseront ADAM. Certains auront des couches RESNET, certains utiliseront Inception. Les choix sont nombreux (voir par exemple ici ).
En lisant l’un de ces articles particuliers, on est confronté à un ensemble de choix que les auteurs avaient fait, suivi de l’évaluation sur l’ensemble de données de leur choix. La discussion des choix se réfère généralement fortement aux articles dans lesquels des techniques données ont été introduites pour la première fois, tandis que la section des résultats examine généralement en détail l’état de l’art antérieur. La forme de l’architecture est souvent décomposée en décisions évidentes et non évidentes. Les plus évidentes sont dictées par la tâche particulière que les auteurs tentent de résoudre (par exemple, lorsqu’ils ont une tâche de type auto-encodage, ils utilisent évidemment une forme d’auto-encodeur).
Les choix non évidents incluraient des questions similaires à celles-ci: pourquoi ont-ils utilisé la convocation 3×3 suivie de la convocation 1×1, puis seulement en regroupant? Pourquoi ont-ils seulement remplacé les 3 couches centrales par des couches MobileNet (nom ridicule BTW)? Pourquoi ont-ils giflé la norme de lot uniquement dans les deux couches centrales et pas toutes? Pourquoi ont-ils utilisé le regroupement maximal dans les deux premières couches et aucun regroupement dans les trois suivants?
Les choses évidentes ne sont pas discutées parce qu’elles sont évidentes, les choses non évidentes ne sont pas discutées parce que … permettez-moi d’y revenir dans un instant.
À mon avis, la discussion de ces questions sépare un article de quelque chose au moins superficiellement scientifique de la charlatanerie complète, même si la charlatanerie semble améliorer les résultats sur l’ensemble de données donné.
La triste vérité, dont peu parlent même, est que dans la grande majorité des cas, les réponses aux questions sont purement empiriques: ils ont essayé un tas de modèles et ceux-ci ont le mieux fonctionné – c’est ce qu’on appelle « réglage hyperparamètre « (ou réglage méta-paramètre) . Qu’est-ce que cela nous dit? Quelques choses, d’abord les auteurs ignorent complètement le danger du test d’hypothèses multiples et pissent généralement sur les fondements statistiques de leur « recherche ». Deuxièmement, ils ont probablement plus de GPU accessibles qu’ils ne savent quoi en faire (très souvent, ils le font dans les grandes entreprises de nos jours). Troisièmement, ils veulent juste apposer leur nom sur une nouvelle référence record, qui sera évidemment cassée deux semaines plus tard par quelqu’un qui prend son modèle et fait quelques ajustements supplémentaires à l’aveugle, en utilisant encore plus de puissance GPU.
Ce n’est pas de la science. Cela a plus à voir avec les personnes qui construisent des PC costauds et soumettent leurs résultats 3dMark pour détenir un record pendant quelques jours. C’est un métier, sans doute, mais ce n’est pas de la science. Les constructeurs de PC ne prétendent pas que ce soit une science. Les gens qui apprennent en profondeur le font. Ils écrivent ce qui semble être des documents de recherche, juste pour décrire leur plate-forme GPU et le résultat de leur recherche aléatoire de méta-paramètres, avec peut-être quelques lambeaux de discussion scientifique réelle. Les résultats de référence fournissent une belle couverture, pour affirmer que le document est en quelque sorte « nouveau » et intéressant, mais la vérité est qu’ils ont sur-ajusté un peu plus cet ensemble de données. Ils pourraient tout aussi bien mémoriser l’ensemble de données dans leur modèle et atteindre une précision de 100%, qui s’en soucie? ( lire mon post addenda d’hiver sur l’IA pour une littérature intéressante sur le sujet ).
De même que la différence entre la chimie et l’alchimie , la discussion scientifique porte sur la construction d’un concept, une théorie qui permettra de faire des prédictions précises. Quelque chose pour guider leurs actions expérimentales. La science n’a pas besoin de faire de l’or à partir du plomb à chaque fois, ou dans le cas de l’apprentissage automatique, un véritable article scientifique dans ce domaine n’a pas besoin de battre une référence actuelle. Un article scientifique n’a même pas besoin de répondre à des questions, s’il arrive à en poser de bonnes.
Maintenant, il y a évidemment des exceptions, une petite fraction des articles contient des trucs intéressants. Ce sont principalement ceux qui essaient de montrer les déficits de l’apprentissage en profondeur et engagent une discussion pour savoir pourquoi cela pourrait être le cas.
La prochaine fois que vous lirez un article d’apprentissage approfondi, essayez de contempler ces choix calmes et jamais expliqués par les auteurs. Vous serez choqué de voir combien de ceux-ci sont cachés entre les lignes.
Si vous avez trouvé une erreur, mettez-la en surbrillance et appuyez sur Maj + Entrée ou cliquez ici pour nous informer.