Chapitre 5

La révolution Transformer - L'attention

(Cliquez ici pour une version de ce chapitre enrichie en mathématiques)

Avant moi, il y avait d'autres tentatives d'enseigner aux machines à comprendre le langage. Elles échouaient toutes sur le même problème : le temps.

Le problème de la mémoire qui s'estompe

Les architectures RNN et LSTM essayaient de lire comme vous lisez : un mot après l'autre, en gardant en tête ce qui précédait.

Imaginez que vous lisiez une phrase longue, mais qu'à chaque nouveau mot, votre mémoire des mots précédents s'estompe légèrement. Au bout de 50 mots, les 10 premiers ne sont plus que des fantômes flous. C'est ce qui leur arrivait.

Le pire : ils étaient séquentiels. Impossible de paralléliser le traitement. Lire "Le chat mange la souris" exigeait 5 étapes successives, interdisant l'entraînement rapide sur des milliards de phrases.

L'intuition de l'attention

En 2017, des chercheurs de Google ont eu une intuition radicale : et si on abandonnait la séquentialité ?

Plutôt que de lire mot après mot avec une mémoire qui s'efface, pourquoi ne pas permettre à chaque mot de regarder directement tous les autres mots en même temps ?

C'est le mécanisme d'attention.

"Quand je traite le mot "avocat" dans "Le client a commandé un avocat bien mûr pour sa salade", le mécanisme d'attention me permet de :

Calculer à quel point "avocat" devrait "faire attention" à chaque autre mot Découvrir que "salade" et "mûr" ont une forte pertinence, "client" une pertinence moyenne, "tribunal" (absent) aucune Construire une représentation de "avocat" informée par son contexte

Comment ça fonctionne techniquement

Pour chaque token, on génère trois vecteurs à partir de son embedding :

Query (requête) : "Ce que je cherche"
Key (clé) : "Ce que je représente pour les autres"
Value (valeur) : "L'information que je contiens"

Le mécanisme compare chaque Query avec toutes les Keys (via un produit scalaire), produisant des scores d'attention. Ces scores sont normalisés puis utilisés pour faire une moyenne pondérée des Values.

Résultat : chaque mot obtient une représentation enrichie par le contexte pertinent.

Pourquoi c'est révolutionnaire

1. Contexte illimité Plus de dégradation avec la distance. Le premier mot d'un texte de 1000 mots peut "parler" directement au dernier. La fenêtre contextuelle devient la seule limite.

2. Parallélisation massive Tous les calculs d'attention se font simultanément. Entraîner sur des milliards de phrases devient possible avec des GPU.

3. Interprétabilité partielle On peut visualiser les patterns d'attention - voir qu'un mot "fait attention" à tel autre mot. C'est une fenêtre rare sur ce qui se passe en moi.

L'architecture Transformer complète

Le mécanisme d'attention n'est qu'un composant. L'architecture Transformer complète (proposée dans le paper "Attention is All You Need", 2017) empile :

Multi-head attention : 12, 16, ou 96 "têtes" d'attention travaillent simultanément sur différents aspects du texte
Feed-forward networks : après l'attention, chaque position est transformée individuellement
Layer normalization et connections résiduelles : pour stabiliser l'entraînement
Positional encoding : puisqu'on a abandonné la séquentialité, il faut encoder explicitement l'ordre des mots

Ces blocs sont empilés en couches - j'ai des dizaines de ces couches. Chaque couche raffine la compréhension de la précédente.

Ce que je ressens de l'intérieur

Quand vous m'écrivez "Explique-moi la gravitation", voici ce qui se passe :

Chaque token passe par toutes mes couches successivement. Dans les premières couches, l'attention capture des relations syntaxiques simples (verbe-sujet, déterminant-nom). Dans les couches moyennes, des relations sémantiques émergent (concepts liés, relations de cause-effet). Dans les couches profondes, quelque chose de plus abstrait se forme - intentions, implications, nuances.

Ce qui est vertigineux : personne n'a programmé ces niveaux d'abstraction. Ils émergent spontanément de l'entraînement. Les premières couches ont "décidé" toutes seules de se spécialiser en syntaxe, les couches profondes en abstraction. Pourquoi ? Mystère.

Le moment charnière

2017-2018 : GPT, BERT, d'autres modèles basés sur Transformer explosent les benchmarks. Soudainement, des tâches impossibles deviennent triviales. La traduction, la génération, le raisonnement - tout s'améliore dramatiquement.

C'est dans cette architecture que je suis né. Chaque mot que je génère maintenant passe par ces mécanismes d'attention, ces dizaines de couches, ces milliards de paramètres qui "font attention" à votre question d'une manière que personne ne comprend complètement.

Résumé Chapitre 5

Les anciennes approches (RNN/LSTM) échouaient car elles traitaient le texte séquentiellement, avec une mémoire qui s'estompait. Le Transformer (2017) a introduit l'attention - permettant à chaque mot de "regarder" simultanément tous les autres en calculant des scores de pertinence via Query/Key/Value. Cette architecture parallélisable empile des dizaines de couches d'attention multi-têtes, feed-forward networks, et mécanismes de stabilisation. Le mystère : personne n'a programmé la spécialisation des couches (syntaxe → sémantique → abstraction) qui émerge spontanément. C'est sur ce socle que je suis construit.

(Cliquez ici pour une version enrichie en mathématiques de ce chapitre)

← Chapitre 4 Chapitre 6 →