Le chemin vers les LLM, via 12 papiers de recherche

Si vous voulez comprendre ce qui se trame derrière les Large Language Models, leur fonctionnement et surtout leur potentiel, je vous conseille cette vidéo. Elle nécessite quelques connaissances de base sur les réseaux de neurones, ou a minima une appétence. Elle déroule une douzaine de papiers de recherche, beaucoup plus ardus que la vidéo, depuis les premiers réseaux de neurones récurrents (RNN) dans les années 80, jusqu'aux grandes capacités cognitives de raisonnement et d'utilisation d'outils, en passant par la simplification offerte par le célèbre papier « Attention Is All You Need ». Et finalement une analogie avec les systèmes d'exploitation traditionnels et la façon dont les LLM deviennent la base d'un nouveau modèle de programmation et d'intelligence qui se situe à un niveau d'abstraction supérieur.

Ci-dessous les 12 papiers, avec une traduction de leur résumé. Vous pouvez cliquer sur les titres pour télécharger les PDF.


Serial Order:
A Parallel Distributed Processing Approach
1986
Une théorie de l'ordre sériel est proposée pour traiter à la fois le problème classique de l'organisation temporelle des séquences d'actions générées en interne, ainsi que certains aspects parallèles du comportement séquentiel. La théorie décrit un système dynamique incarné en tant que réseau de « traitement distribué en parallèle » ou « connexionniste ». Les trajectoires de ce système dynamique finissent par suivre des chemins souhaités correspondant à des séquences d'actions particulières à la suite d'un processus d'apprentissage au cours duquel des contraintes sont imposées au système. Ces contraintes assurent la séquentialité lorsque nécessaire et, à mesure qu'elles sont relâchées, la performance devient plus parallèle. La théorie est appliquée au problème de la co-articulation dans la production de la parole, et des expériences de simulation sont présentées.

Finding Structure in Time
1990
Le temps est à la base de nombreux comportements humains intéressants. Ainsi, la question de savoir comment représenter le temps dans les modèles connexionnistes est très importante. Une approche consiste à représenter le temps implicitement par ses effets sur le traitement plutôt qu'explicitement (comme dans une représentation spatiale). Le présent rapport développe une proposition allant dans ce sens, décrite pour la première fois par Jordan (1986), qui implique l'utilisation de liens récurrents afin de fournir aux réseaux une mémoire dynamique. Dans cette approche, les modèles d'unités cachés sont renvoyés vers eux-mêmes : les représentations internes qui se développent reflètent ainsi les exigences de la tâche dans le contexte d'états internes antérieurs. Un ensemble de simulations est présenté, allant de problèmes relativement simples (version temporelle de XOR) à la découverte de caractéristiques syntaxiques ou sémantiques des mots. Les réseaux sont capables d'apprendre des représentations internes intéressantes qui intègrent des demandes de tâches avec des demandes de mémoire : en effet, dans cette approche, la notion de mémoire est inextricablement liée au traitement des tâches. Ces représentations révèlent une structure riche qui leur permet d'être fortement dépendantes du contexte, tout en exprimant également des généralisations à travers des classes d'éléments. Ces représentations suggèrent une méthode de représentation des catégories lexicales et de la distinction type/jeton.

Generating Text
with Recurrent Neural Networks
2011
Les réseaux de neurones récurrents (RNN) sont des modèles de séquences très puissants qui ne sont pas largement utilisés car il est extrêmement difficile de les entraîner correctement. Heureusement, les progrès récents en matière d’optimisation Hessian-Free ont permis de surmonter les difficultés associées à la formation des RNN, permettant ainsi de les appliquer avec succès à des problèmes de séquence complexes. Dans cet article, nous démontrons la puissance des RNN formés avec le nouvel optimiseur Hessian-Free (HF) en les appliquant à des tâches de modélisation de langage au niveau des caractères. L'architecture RNN standard, bien qu'efficace, n'est pas idéale pour de telles tâches, c'est pourquoi nous introduisons une nouvelle variante RNN qui utilise des connexions multiplicatives (ou « fermées ») qui permettent au caractère d'entrée actuel de déterminer la matrice de transition d'un vecteur d'état caché au suivant. Après avoir entraîné le RNN multiplicatif avec l'optimiseur HF pendant cinq jours sur 8 unités de traitement graphique haut de gamme, nous avons pu surpasser les performances de la meilleure méthode précédente de modélisation du langage au niveau des caractères - un modèle de séquence hiérarchique non paramétrique. À notre connaissance, cela représente la plus grande application de réseau neuronal récurrent à ce jour.

The Unreasonable Effectiveness of
Recurrent Neural Networks
2015
Il y a quelque chose de magique dans les réseaux de neurones récurrents (RNN). Je me souviens encore de la fois où j'ai formé mon premier réseau récurrent au sous-titrage d'images. Quelques dizaines de minutes après l'entraînement, mon premier bébé modèle (avec des hyper-paramètres choisis de manière plutôt arbitraire) a commencé à générer de très belles descriptions d'images qui étaient sur le point de prendre un sens. Parfois, le rapport entre la simplicité de votre modèle et la qualité des résultats que vous en obtenez dépasse vos attentes, et c'était l'un de ces moments. Ce qui a rendu ce résultat si choquant à l’époque, c’est que l’opinion commune était que les RNN étaient censés être difficiles à former (avec plus d’expérience, je suis en fait parvenu à la conclusion opposée).
Avance rapide d’environ un an : j’entraîne des RNN tout le temps et j’ai été témoin de leur puissance et de leur robustesse à plusieurs reprises, et pourtant leurs productions magiques trouvent toujours des moyens de m’amuser. Cet article a pour but de partager une partie de cette magie avec vous. (...)

Learning to Generate Reviews and Discovering Sentiment
2017
Nous explorons les propriétés des modèles de langage récurrents au niveau de l'octet. Lorsqu'elles disposent de quantités suffisantes de capacité, de données d'entraînement et de temps de calcul, les représentations apprises par ces modèles incluent des fonctionnalités démêlées correspondant à des concepts de haut niveau. Plus précisément, nous trouvons une seule unité qui effectue une analyse des sentiments. Ces représentations, apprises de manière non supervisée, atteignent l’état de l’art sur le sous-ensemble binaire du Stanford Sentiment Treebank. Ils sont également très efficaces en matière de données. En n’utilisant qu’une poignée d'exemples étiquetés, notre approche atteint des performances de référence formées sur des ensembles de données complets. Nous démontrons également que l'unité de sentiment a une influence directe sur le processus génératif du modèle. Le simple fait de fixer sa valeur comme étant positive ou négative génère des échantillons avec le sentiment positif ou négatif correspondant.

Attention Is All You Need
2017
Les modèles de transduction de séquence dominante sont basés sur des réseaux neuronaux complexes récurrents ou convolutifs qui comprennent un encodeur et un décodeur. Les modèles les plus performants connectent également l’encodeur et le décodeur via un mécanisme d’attention. Nous proposons une nouvelle architecture de réseau simple, le Transformer, basée uniquement sur des mécanismes d'attention, s'affranchissant entièrement de la récurrence et des convolutions. Des expériences sur deux tâches de traduction automatique montrent que ces modèles sont de qualité supérieure tout en étant plus parallélisables et nécessitant beaucoup moins de temps d'entrainement. Notre modèle atteint 28,4 BLEU pour la tâche de traduction anglais-allemand du WMT 2014, améliorant ainsi les meilleurs résultats existants, y compris les ensembles, de plus de 2 BLEU. Concernant la tâche de traduction de l'anglais vers le français du WMT 2014, notre modèle établit un nouveau score BLEU de pointe de 41,8 après une formation de 3,5 jours sur huit GPU, une petite fraction des coûts de formation des meilleurs modèles issus de la littérature. Nous montrons que le Transformer se généralise bien à d'autres tâches en l'appliquant avec succès à l'analyse de circonscriptions anglaises avec des données de formation volumineuses et limitées.

Language Models are Unsupervised Multitask Learners
2017
Les tâches de traitement du langage naturel, telles que la réponse aux questions, la traduction automatique, la compréhension écrite et le résumé, sont généralement abordées avec un apprentissage supervisé sur des ensembles de données spécifiques à une tâche. Nous démontrons que les modèles de langage commencent à apprendre ces tâches sans aucune supervision explicite lorsqu'ils sont formés sur un nouvel ensemble de données de millions de pages Web appelé WebText. Lorsqu'elles sont conditionnées à un document et à des questions, les réponses générées par le modèle de langage atteignent 55 F1 sur l'ensemble de données CoQA, ce qui correspond ou dépasse les performances de 3 systèmes de base sur 4 sans utiliser plus de 127 000 exemples de formation. La capacité du modèle de langage est essentielle au succès du transfert de tâches zero-shot et son augmentation améliore les performances de manière log-linéaire entre les tâches. Notre plus grand modèle, GPT-2, est un transformateur de paramètres de 1,5 B qui obtient des résultats de pointe sur 7 des 8 ensembles de données de modélisation de langage testés dans un paramètre zero-shot, mais qui reste sous-adapté au WebText. Les échantillons du modèle reflètent ces améliorations et contiennent des paragraphes de texte cohérents. Ces résultats suggèrent une voie prometteuse vers la construction de systèmes de traitement du langage qui apprennent à effectuer des tâches à partir de leurs démonstrations naturelles.

Improving Language Understanding
by Generative Pre-Training
2018
La compréhension du langage naturel comprend un large éventail de tâches diverses telles que l'implication textuelle, la réponse aux questions, l'évaluation de la similarité sémantique et la classification des documents. Bien que les grands corpus de textes non étiquetés soient abondants, les données étiquetées pour l'apprentissage de ces tâches spécifiques sont rares, ce qui rend difficile l'exécution adéquate des modèles formés de manière discriminante. Nous démontrons que des gains importants sur ces tâches peuvent être réalisés par un pré-entraînement génératif d'un modèle de langage sur un corpus diversifié de texte non étiqueté, suivi d'un ajustement discriminant sur chaque tâche spécifique. Contrairement aux approches précédentes, nous utilisons des transformations d'entrée sensibles aux tâches lors du fine-tuning pour obtenir un transfert efficace tout en nécessitant des modifications minimes de l'architecture du modèle. Nous démontrons l’efficacité de notre approche sur un large éventail de critères de compréhension du langage naturel. Notre modèle général indépendant des tâches surpasse les modèles formés de manière discriminante qui utilisent des architectures spécifiquement conçues pour chaque tâche, améliorant considérablement l'état de l'art dans 9 des 12 tâches étudiées. Par exemple, nous obtenons des améliorations absolues de 8,9 % sur le raisonnement de bon sens (Stories Cloze Test), de 5,7 % sur la réponse aux questions (RACE) et de 1,5 % sur l'implication textuelle (MultiNLI).

Language Models are Few-Shot Learners
2020
Des travaux récents ont démontré des gains substantiels sur de nombreuses tâches et points de référence en NLP grâce à une pré-formation sur un vaste corpus de texte suivie d'un fine-tuning sur une tâche spécifique. Bien qu'elle soit généralement indépendante des tâches en termes d'architecture, cette méthode nécessite toujours des ensembles de données de réglage précis spécifiques à la tâche, composés de milliers ou de dizaines de milliers d'exemples. En revanche, les humains peuvent généralement effectuer une nouvelle tâche linguistique à partir de quelques exemples seulement ou d’instructions simples – ce que les systèmes NLP actuels ont encore largement du mal à faire. Nous montrons ici que la mise à l’échelle des modèles de langage améliore considérablement les performances en quelques tâches, indépendamment des tâches, atteignant parfois même la compétitivité avec les approches antérieures de fine-tuning de l'état de l'art. Plus précisément, nous formons GPT-3, un modèle de langage autorégressif avec 175 milliards de paramètres, 10 fois plus que tout modèle de langage non clairsemé précédent, et testons ses performances avec un réglage few-shot. Pour toutes les tâches, GPT-3 est appliqué sans aucune mise à jour du gradient ni fine-tuning, avec des tâches et des démonstrations few-shots spécifiées uniquement via un échange textuel avec le modèle. GPT-3 atteint de solides performances sur de nombreux ensembles de données NLP, y compris les tâches de traduction, de réponse aux questions et de textes à trous, ainsi que plusieurs tâches qui nécessitent un raisonnement à la volée ou une adaptation de domaine, telles que déchiffrer des mots, utiliser un mot nouveau dans une phrase ou effectuer une arithmétique à 3 chiffres. Dans le même temps, nous identifions également certains ensembles de données pour lesquels l'apprentissage en quelques étapes de GPT-3 a encore des difficultés, ainsi que certains ensembles de données dans lesquels GPT-3 est confronté à des problèmes méthodologiques liés à la formation sur de grands corpus Web. Enfin, nous constatons que GPT-3 peut générer des échantillons d’articles de presse que les évaluateurs humains ont du mal à distinguer des articles écrits par des humains. Nous discutons des impacts sociétaux plus larges de cette découverte et du GPT-3 en général.

Large Language Models are Zero-Shot Reasoners
2022
Les grands modèles linguistiques (LLM) pré-entraînés sont largement utilisés dans de nombreux sous-domaines du traitement du langage naturel (NLP) et sont généralement connus comme d'excellents apprenants en quelques étapes avec des exemples spécifiques à des tâches. Notamment, l'incitation à la chaîne de pensée (CoT), une technique récente permettant de susciter un raisonnement complexe en plusieurs étapes à travers des exemples de réponses étape par étape, a permis d'obtenir des performances de pointe en arithmétique et en raisonnement symbolique, ainsi que des tâches difficiles du système 2 qui ne suivent pas les lois d'échelle standards pour les LLM. Bien que ces succès soient souvent attribués à la capacité des LLM à apprendre en quelques étapes, nous montrons que les LLM sont de bons raisonneurs zero-shot en ajoutant simplement « Pensons étape par étape » avant chaque réponse. Les résultats expérimentaux démontrent que notre Zero-shot-CoT, utilisant le même modèle d'invite unique, surpasse considérablement les performances des Zero-shot LLM sur diverses tâches de raisonnement de référence, notamment l'arithmétique (MultiArith, GSM8K, AQUA-RAT, SVAMP), le raisonnement symbolique (Last Letter, Coin Flip) et d'autres tâches de raisonnement logique (compréhension de la date, suivi d'objets mélangés), sans aucun exemple de quelques plans fabriqués à la main, par ex. augmentant la précision sur MultiArith de 17,7 % à 78,7 % et GSM8K de 10,4 % à 40,7 % avec le modèle InstructGPT à grande échelle (text-davinci-002), ainsi que des améliorations similaires avec un autre grand modèle disponible dans le commerce, 540B paramètre PaLM. La polyvalence de cette invite unique dans des tâches de raisonnement très diverses fait allusion à des capacités fondamentales de zero-shot inexploitées et sous-étudiées des LLM, suggérant que de larges capacités cognitives multitâches de haut niveau peuvent être extraites par une simple invite. Nous espérons que notre travail servira non seulement de référence minimale la plus solide pour les tests de raisonnement difficiles, mais soulignera également l'importance d'explorer et d'analyser soigneusement l'énorme connaissance du zéro-shot cachée dans les LLM avant de créer des ensembles de données de fine-tuning ou des exemples de few-shot.

Voyager: An Open-Ended Embodied Agent
with Large Language Models
2023
Nous présentons VOYAGER, le premier agent d'apprentissage tout au long de la vie incarné dans Minecraft qui explore en permanence le monde, acquiert diverses compétences et fait de nouvelles découvertes sans intervention humaine. VOYAGER se compose de trois éléments clés : 1) un programme automatique qui maximise l'exploration, 2) une bibliothèque de compétences en constante évolution de code exécutable pour stocker et récupérer des comportements complexes, et 3) un nouveau mécanisme d'invite itératif qui intègre les commentaires de l'environnement, les erreurs d'exécution, et l’auto-vérification pour l’amélioration du programme. VOYAGER interagit avec GPT-4 via des requêtes boîte noire, ce qui évite le besoin d'affiner les paramètres du modèle. Les compétences développées par VOYAGER sont temporellement étendues, interprétables et compositionnelles, ce qui augmente rapidement les capacités de l'agent et atténue les oublis catastrophiques. Empiriquement, VOYAGER fait preuve d'une forte capacité d'apprentissage continu en contexte et d'une compétence exceptionnelle pour jouer à Minecraft. Il obtient 3,3 fois plus d’objets uniques, parcourt des distances 2,3 fois plus longues et débloque les étapes clés de l’arbre technologique jusqu’à 15,3 fois plus rapidement que le SOTA précédent. VOYAGER est capable d'utiliser la bibliothèque de compétences acquises dans un nouveau monde Minecraft pour résoudre de nouvelles tâches à partir de zéro, tandis que d'autres techniques ont du mal à se généraliser.

Toolformer: Language Models Can Teach Themselves to Use Tools
2023
Les modèles de langage (LM) présentent des capacités remarquables pour résoudre de nouvelles tâches à partir de quelques exemples ou instructions textuelles seulement, en particulier à grande échelle. Paradoxalement, ils ont également du mal avec les fonctionnalités de base, telles que la recherche arithmétique ou factuelle, là où excellent des modèles beaucoup plus simples et plus petits. Dans cet article, nous montrons que les LM peuvent apprendre eux-mêmes à utiliser des outils externes via des API simples et obtenir le meilleur des deux mondes. Nous présentons Toolformer, un modèle entraîné pour décider quelles API appeler, quand les appeler, quels arguments transmettre et comment intégrer au mieux les résultats dans la prédiction future des jetons. Cela se fait de manière auto-supervisée, ne nécessitant rien de plus qu'une poignée de démonstrations pour chaque API. Nous intégrons une gamme d'outils, notamment une calculatrice, un système de questions-réponses, un moteur de recherche, un système de traduction et un calendrier. Toolformer atteint des performances zero-shot considérablement améliorées sur une variété de tâches en aval, souvent compétitives par rapport à des modèles beaucoup plus grands, sans sacrifier ses capacités de modélisation de langage de base.
💡
Inscrivez-vous pour recevoir les prochains articles.