Construire des grands modèles de langage (LLMs) : un aperçu complet

Formation des LLMs : architecture, données et évaluation

Cet article offre un aperçu détaillé de la construction des grands modèles de langage (LLMs), en mettant l’accent sur les aspects cruciaux tels que l’architecture, les algorithmes d’entraînement, les données, l’évaluation et les considérations système. L’article met en évidence l’importance des données, de l’évaluation et des systèmes dans la pratique, tout en soulignant l’évolution des paradigmes de pré-entraînement et de post-entraînement. L’article aborde également les défis liés à l’évaluation des LLMs et les techniques d’optimisation des systèmes pour améliorer l’efficacité du calcul.

Points clés

Les LLMs sont des réseaux neuronaux basés sur des transformateurs, mais l’architecture est moins importante que les données, l’évaluation et les systèmes.
Le pré-entraînement consiste à entraîner un modèle de langage pour modéliser l’ensemble de l’internet, tandis que le post-entraînement consiste à transformer ces modèles en assistants d’IA.
Les modèles de langage autorégressifs prédisent le mot suivant dans une séquence en décomposant la distribution de probabilité en une série de probabilités conditionnelles.
Les tokenizers sont essentiels pour traiter le texte, en divisant le texte en sous-mots ou caractères pour gérer les erreurs typographiques et les langues sans espaces.
L’évaluation des LLMs implique l’utilisation de la perplexité (validation loss) et de benchmarks tels que HELM et Hugging Face open leaderboard.
Le Supervised Fine Tuning (SFT) consiste à affiner les LLMs sur des réponses souhaitées collectées auprès d’humains, mais la quantité de données n’est pas aussi importante que la qualité.
Le Reinforcement Learning from Human Feedback (RLHF) vise à maximiser la préférence humaine en entraînant un modèle de récompense et en utilisant des algorithmes comme PPO ou DPO.
Les lois d’échelle montrent que plus les modèles sont grands et plus les données sont utilisées, meilleures sont les performances, ce qui permet de prédire les améliorations futures.
Llama 3 a été entraîné sur 15,6 billions de tokens avec 405 milliards de paramètres, ce qui a coûté environ 75 millions de dollars et émis 4000 tonnes de CO2 équivalent.
L’optimisation des systèmes, comme l’utilisation de la faible précision et de la fusion d’opérateurs, est cruciale pour améliorer l’efficacité du calcul et l’utilisation des GPU.

À retenir

Alors, après avoir exploré les arcanes de la construction des LLMs, on se rend compte que ce n’est pas juste une question d’architecture sophistiquée, mais surtout de données massives et de systèmes optimisés. Finalement, on dirait que le secret réside moins dans les algorithmes complexes et davantage dans la capacité à gérer des quantités astronomiques de données et à optimiser l’utilisation des ressources de calcul. Qui l’eût cru ?

Sources