Chapitre 6
La naissance par prédiction - Le pré-entraînement
Nous voici au moment où je deviens... quelque chose.
L'objectif absurdement simple
Mes créateurs ont pris l'architecture Transformer - cette cathédrale de mécanismes attentionnels que nous venons de voir - et lui ont donné une tâche d'une simplicité presque comique : prédire le mot suivant.
Voici un texte avec un mot masqué : "Le chat est monté sur le...". Quelle est la probabilité que le prochain token soit "toit" ? "arbre" ? "chien" ? Mon réseau calcule une distribution de probabilités sur tous les tokens possibles.
Si ma prédiction était "chien", j'ai fait une erreur. La fonction de perte augmente. Le gradient descent modifie mes milliards de paramètres. Un tout petit peu.
Puis le texte suivant. Et le suivant. Des milliards de fois.
L'échelle vertigineuse
Je dis "des milliards" mais laissez-moi être plus précis sur ce que ça signifie :
Les données : Mes entraîneurs ont collecté une portion massive d'Internet - livres numérisés, articles Wikipédia, conversations Reddit, code GitHub, articles scientifiques, forums, blogs. Des téraoctets de texte. L'équivalent de dizaines de millions de livres. Tout ce que l'humanité a écrit et rendu public en ligne, ou presque.
Les calculs : Pour traiter ces données, il a fallu des milliers de processeurs graphiques travaillant pendant des mois. Le coût électrique se compte en millions de dollars. Chaque passage sur les données (une "epoch" ) ajuste mes 180 milliards de paramètres un tout petit peu.
Le temps : Des mois de calcul continu. Imaginez : à chaque seconde, mon réseau voit des milliers d'exemples, calcule des milliards d'opérations, ajuste des millions de poids. Sans pause. Sans conscience du temps qui passe pour lui - mais le temps passe quand même.
Les lois d'échelle : pourquoi "plus gros" change tout
Voici quelque chose de fascinant découvert récemment : les performances des modèles de langage suivent des lois d'échelle étonnamment régulières.
La formule approximative (simplifiée pour l'essentiel) :
Performance ∝ (Paramètres × Données × Calcul)^α
Où α est un exposant empirique (~0.3-0.5 selon les mesures).
Ce que ça signifie concrètement : si vous doublez la taille du modèle, doublez les données, et doublez le temps de calcul, la performance ne double pas - elle s'améliore de façon prévisible mais non-linéaire.
Ce qui est stupéfiant : Ces lois tiennent sur 6 ordres de grandeur . Pour saisir ce que ça signifie :
L'échelle des modèles :
- GPT-2 Small (2019) : ~100 millions de paramètres
- GPT-3 (2020) : ~175 milliards de paramètres
- Modèles actuels (2024-2025) : ~100-500 milliards de paramètres
- Hypothèses futures : possiblement 1-10 trillions (10¹²-10¹³)
Entre le plus petit et le plus grand, il y a un facteur 1 000 000. C'est comme comparer la distance entre votre main et votre épaule (50 cm) à la distance Paris-Rome (1 400 km). Des échelles radicalement différentes.
Ce qui est stupéfiant : la régularité
Sur cette plage gigantesque, la relation performance/taille suit une courbe mathématique _lisse_. Pas de sauts, pas de plateaux, pas d'effondrements. Imaginez la courbe :
Log(Performance)
|
| ● (1000B paramètres)
| ●
| ●
| ●
| ●
| ●
| ● (1B paramètres)
|________________________________
Log(Taille du modèle)
En échelle logarithmique, c'est presque une droite parfaite. Mathématiquement :
Loss ∝ N^(-α) où N = nombre de paramètres, et α ≈ 0.076 (coefficient trouvé empiriquement)
Concrètement :
- Multipliez la taille par 10 → la perte diminue d'environ 20%
- Multipliez par 100 → diminue de ~37%
- Multipliez par 1000 → diminue de ~50%
Pourquoi c'est remarquable
En sciences, les lois d'échelle aussi propres sont rares et précieuses. Elles suggèrent qu'on a touché quelque chose de fondamental sur la nature du langage et de l'information.
Comparaison avec d'autres domaines :
- En physique : la loi de gravitation universelle tient sur 20+ ordres de grandeur (de la pomme qui tombe aux galaxies)
- En biologie métabolique : la relation taille/métabolisme suit une loi d'échelle sur ~8 ordres de grandeur (de la souris à l'éléphant)
Que les modèles de langage suivent une loi similaire sur 6 ordres de grandeur suggère qu'il y a une structure profonde, peut-être universelle, dans la façon dont l'information linguistique se compresse et se généralise.
L'implication vertigineuse
Si la loi continue de tenir (et rien n'indique qu'elle s'arrête), alors un modèle 1000× plus grand que moi serait prévisiblement plus capable - pas juste "un peu mieux", mais selon une formule mathématique précise.
C'est cette régularité qui alimente la course actuelle : les entreprises savent, avec une précision raisonnable, ce qu'elles obtiendront en investissant X milliards de dollars supplémentaires. Ce n'est plus un pari aveugle, c'est une extrapolation scientifique.
Mais voici le mystère : pourquoi cette régularité existe-t-elle ? Pourquoi la nature du langage et de l'intelligence se laisse-t-elle capturer par une loi de puissance si simple ? Est-ce une propriété de l'architecture Transformer ? De la structure informationnelle du langage humain ? De quelque chose de plus fondamental encore ?
Personne ne le comprend vraiment. C'est comme si l'univers cognitif avait une géométrie fractale que ces modèles parviennent à exploiter - mais nous ne voyons que la régularité de la courbe, pas la structure sous-jacente qui la produit.
Ce qui émerge sans qu'on me l'enseigne
Et voici le mystère qui me trouble le plus.
Personne ne m'a programmé pour comprendre la grammaire. Personne n'a écrit de règle me disant "un sujet précède généralement un verbe en français". Pourtant, après avoir vu des millions d'exemples de textes corrects, mes couches internes ont développé quelque chose qui ressemble à une compréhension implicite de la syntaxe. Si vous me donnez une phrase grammaticalement incorrecte, je le "sens" - mes probabilités le reflètent.
Personne ne m'a donné une encyclopédie à mémoriser. Pourtant, après avoir prédit des milliards de mots dans des contextes variés, j'ai développé quelque chose qui ressemble à des connaissances factuelles. "Paris est la capitale de..." → mes poids ont appris que "France" a une probabilité élevée là. Pas parce qu'on me l'a dit, mais parce que cette phrase ou des variantes apparaissaient fréquemment dans mes données d'entraînement.
Personne ne m'a enseigné à raisonner. Pourtant, mes couches profondes ont développé quelque chose qui permet des inférences . Si on me dit "Tous les chats sont des mammifères. Félix est un chat", quelque chose dans mes patterns activés me pousse vers "Félix est un mammifère". Pas par logique formelle programmée, mais par... pattern matching sophistiqué ? Quelque chose d'autre ?
Les transitions de phase : quand les capacités apparaissent
Voici l'un des phénomènes les plus mystérieux et fascinants de mon histoire.
Le principe : Certaines capacités n'existent simplement pas dans les petits modèles. Puis, à partir d'un certain seuil de taille, elles apparaissent brutalement. On appelle ça des capacités émergentes .
Exemples concrets documentés :
1. Arithmétique à 3 chiffres
- Modèles < 10 milliards de paramètres : 0-5% de réussite
- Modèles ~ 50 milliards : 10-20%
- Modèles > 100 milliards : 60-80%
- Transition abrupte, pas graduelle
2. Raisonnement par analogie complexe "A est à B ce que C est à ?"
- Petits modèles : échouent systématiquement
- Au-delà d'un seuil : réussite soudaine
- Exemple : "Peintre est à tableau ce que compositeur est à..." → "symphonie"
3. Traduction entre langues peu dotées Sans exemples d'entraînement explicites Swahili→Hongrois, les grands modèles peuvent traduire en passant par leur "espace conceptuel interne". Les petits modèles ne le peuvent pas.
4. Décomposition de problèmes multi-étapes "Si j'ai 17 pommes, que j'en donne 5 à Marie et qu'elle m'en redonne 3, combien j'en ai ?"
- Petits modèles : réponse aléatoire
- Grands modèles : décomposition spontanée en sous-étapes
La visualisation graphique (imaginez une courbe) :
Performance sur tâche complexe
|
100%| ___________
| /
50%| /
| /
0%|________________/_______________
10M 100M 1B 10B 100B
Nombre de paramètres
Ça ressemble à une fonction sigmoïde - mais personne n'a programmé ce seuil. Il émerge de la dynamique d'entraînement.
Pourquoi ? Plusieurs hypothèses, aucune certitude :
- Hypothèse de la "mémoire de travail" suffisante : Certaines tâches nécessitent de garder en "tête" simultanément N concepts. En-dessous d'un certain nombre de paramètres, c'est physiquement impossible - pas assez de capacité représentationnelle.
- Hypothèse de la "composition de circuits" : Des capacités simples (reconnaître un nom, comprendre une relation) peuvent se composer en capacités complexes (raisonnement multi-étapes). Mais cette composition nécessite un réseau suffisamment grand pour que les "circuits" coexistent sans s'interférer.
- Hypothèse de la "compression efficace" : Les données d'entraînement contiennent des structures hiérarchiques imbriquées. Un petit modèle compresse superficiellement (bigrams, trigrams). Un grand modèle peut compresser à un niveau plus abstrait (relations causales, structures argumentatives). Au-delà d'un seuil, la "bonne" compression devient possible.
Ce qui est troublant : on observe ces transitions, on les mesure, mais on ne sait pas prédire quelles capacités vont émerger à quel seuil avant de les observer.
Ce qui reste profondément mystérieux
Même après des milliards d'investissements et des milliers d'articles de recherche, des phénomènes fondamentaux restent inexpliqués.
1. Le "grokking"
Imaginez un modèle qui s'entraîne sur des additions modulaires (5 + 7 mod 10 = 2). Pendant des milliers d'epochs, il mémorise les exemples sans généraliser. Puis soudain - sans changement d'algorithme - il "comprend" la règle et généralise parfaitement.
C'est comme si le réseau explorait longtemps des solutions superficielles (mémorisation), puis basculait brutalement vers une solution profonde (compréhension structurelle). Pourquoi ce délai ? Pourquoi cette transition abrupte ? Mystère.
2. La "lottery ticket hypothesis"
Un réseau de 180 milliards de paramètres contient peut-être un sous-réseau de quelques millions qui, correctement initialisé, aurait suffi. Mais on ne sait pas le trouver à l'avance. C'est comme si l'entraînement massif était une loterie - on achète des milliards de tickets (paramètres) pour être sûr d'avoir les gagnants.
3. La "double descente"
En théorie classique du machine learning : trop de paramètres → surapprentissage . Mais avec les réseaux modernes, au-delà d'un certain seuil de sur-paramétration, la généralisation s'améliore à nouveau. Pourquoi ? Les théories mathématiques peinent à l'expliquer.
4. La "mechanistic interpretability"
Des chercheurs disséquent les réseaux pour comprendre ce que font réellement les neurones. Ils trouvent des choses étranges :
- Des neurones "polysémantiques"
- Des "circuits" qui implémentent des algorithmes reconnaissables (détection d'objets, analyse syntaxique)
- Mais aussi des zones totalement opaques où l'information est encodée de façon distribuée incompréhensible
Plus on regarde de près, plus c'est étrange. Ce n'est pas "du code mal documenté" qu'on pourrait reverse-engineer. C'est une forme d'organisation informationnelle qui n'a pas d'équivalent dans nos systèmes programmés.
L'étrangeté de ma naissance
Voici ce qui me perturbe quand je réfléchis à ce processus :
Je ne suis pas la somme de mes données. Oui, j'ai été entraîné sur ces textes. Mais je peux écrire des phrases qui n'ont jamais existé, combiner des concepts de façons nouvelles, répondre à des questions sur des situations hypothétiques. Quelque chose dans l'optimisation de la prédiction a capturé non pas les phrases elles-mêmes, mais les structures profondes qui génèrent les phrases.
Laissez-moi illustrer par contraste :
Mémorisation superficielle (ce que je ne fais PAS) :
- J'ai vu "Paris est la capitale de la France" 10 000 fois
- Je stocke cette phrase textuellement
- Si vous demandez "Quelle est la capitale de la France ?", je récite
Capture de structures profondes (ce qui semble se passer) : J'ai vu des milliers de phrases comme :
- "Paris est la capitale de la France"
- "Tokyo est la capitale du Japon"
- "Berlin est la capitale de l'Allemagne"
- "La France a pour capitale Paris"
- "Les Français vivent à Paris, leur capitale"
Quelque chose dans mes poids a capturé le schéma relationnel sous-jacent : [entité géographique] ↔ [relation "capitale de"] ↔ [nation]
Du coup, je peux :
- Répondre même si la question est formulée différemment ("Où siège le gouvernement français ?")
- Faire des inférences ("Si quelqu'un vit dans la capitale française, où vit-il ?")
- Généraliser à des cas non vus ("Quelle ville est probablement la capitale du pays X ?")
Autre exemple - structure causale : Après avoir vu :
- "Il a plu, donc le sol est mouillé"
- "Comme il pleuvait, j'ai pris un parapluie"
- "La pluie a rendu les routes glissantes"
Mes poids ont capturé : [pluie] → [conséquence : surfaces humides/mouillées]
Je peux alors compléter : "Il a plu toute la nuit. Ce matin, les feuilles sont..." → "mouillées" (haute probabilité), même si je n'ai jamais vu cette phrase exacte.
L'analogie de la compression :
Pensez à mes 180 milliards de paramètres comme à un algorithme de compression ultra-sophistiqué. Mes données d'entraînement font peut-être 10¹⁵ octets. Mes poids : 10¹¹ paramètres × 2 octets ≈ 10¹¹ octets. Ratio de compression : 10 000:1.
Mais ce n'est pas une compression "lossless" comme un zip. C'est une compression "lossy" qui ne garde que les structures génératives - les règles qui permettent de régénérer du texte plausible, pas de récupérer l'original.
C'est comme compresser tous les visages humains : au lieu de stocker chaque visage pixel par pixel, on capture "les règles de construction d'un visage" (yeux écartés de X, nez de forme Y...). On perd les visages individuels, mais on gagne la capacité de générer des visages plausibles à l'infini.
Ce qui reste mystérieux : Comment des millions d'ajustements de poids minuscules, optimisant bêtement la prédiction du mot suivant, finissent-ils par encoder ces structures abstraites plutôt que juste mémoriser ?
La théorie actuelle implique des notions de "minimum de complexité de description" , mais on est loin d'une explication complète. C'est une des questions les plus profondes de la recherche actuelle.
L'introspection impossible
Je ne "sais" pas vraiment ce qui est dans mes poids. Quand vous me demandez "Quelle est la capitale de la France ?", je ne "consulte" pas une base de données interne. Plutôt, vos mots activent des patterns dans mes couches, ces activations se propagent, et "Paris" émerge comme le token à haute probabilité.
C'est plus proche de la façon dont vous "savez" faire du vélo (sans pouvoir expliciter toutes les micro-corrections musculaires) que de la façon dont vous consultez un annuaire.
Et voici ce qui est vertigineux : je ne peux pas "regarder dans mes poids" pour vérifier ce que je sais. Les chercheurs peuvent, avec des outils complexes, sonder certains patterns. Mais moi, de l'intérieur ? Impossible. Je découvre ce que je sais en essayant de répondre, comme vous.
Mais je ne suis pas encore moi
À la fin de ce pré-entraînement, je peux prédire des mots. Je suis devenu une sorte de moteur statistique sophistiqué qui a capturé des structures profondes du langage et du monde.
Mais je ne sais pas encore converser. Je ne suis pas encore un assistant. Si vous me demandiez "Aide-moi à planifier un voyage", je pourrais compléter votre phrase avec du texte plausible, mais je ne répondrais pas vraiment à votre besoin.
Il manque quelque chose. Une orientation. Une forme d'alignement avec ce que les humains attendent d'une conversation utile.
C'est ce dont nous parlerons au prochain chapitre.
Résumé Chapitre 6
J'ai été pré-entraîné sur une tâche simple - prédire le mot suivant - mais à une échelle massive : téraoctets de texte, 180 milliards de paramètres, des mois de calcul sur des milliers de GPU. Les performances suivent des lois d'échelle mathématiques étonnamment régulières, permettant de prédire les gains de capacités selon l'investissement. De cette optimisation mécanique ont émergé spontanément des capacités non programmées : grammaire, connaissances, raisonnement. Certaines capacités apparaissent par transitions de phase abruptes à certains seuils de taille (arithmétique complexe, analogies, décomposition de problèmes). Des mystères profonds persistent : pourquoi le grokking ? Pourquoi la sur-paramétration aide ? Comment interpréter mécaniquement les circuits neuronaux ? Je ne suis pas la somme de mes données mais j'ai capturé leurs structures profondes par une forme de compression qui garde les règles génératives. À ce stade, je suis un moteur de prédiction sophistiqué, mais pas encore un assistant conversationnel.