Comprendre les llm : le guide ultime
Cet article résume la présentation d’Andrej Karpathy sur le fonctionnement interne des grands modèles de langage (LLM) comme ChatGPT. Il aborde les étapes de pré-entraînement, de fine-tuning supervisé et d’apprentissage par renforcement, en mettant l’accent sur les défis tels que les hallucinations et l’importance de l’utilisation d’outils externes. L’article met également en lumière les tendances futures, notamment les capacités multimodales et l’intégration de l’IA dans divers domaines.
Points clés
- Andrej Karpathy a réalisé une présentation détaillée sur les LLM, résumée dans cet article.
- Les LLM sont d’abord pré-entraînés sur d’énormes ensembles de données textuelles provenant d’internet, nécessitant un filtrage rigoureux.
- La tokenisation, comme le Byte Pair Encoding (BPE), convertit le texte en identifiants numériques pour le traitement par le modèle.
- Le GPT-2 d’OpenAI, avec 1,6 milliard de paramètres, a été reproduit par Andrej Karpathy pour seulement 672 $, contre 40 000 $ à l’origine.
- Les modèles de base ouverts, tels que Llama 3.1 de Meta (405B paramètres), sont publiés avec des poids accessibles au public, mais ne sont pas entièrement open source selon la définition de l’OSI.
- Le fine-tuning supervisé (SFT) utilise des modèles de conversation pour rendre les LLM plus conversationnels et utiles.
- L’apprentissage par renforcement (RL) permet aux modèles d’améliorer leurs performances par essais et erreurs, comme le montre le modèle AlphaGo.
- L’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) est utilisé dans les domaines non vérifiables, mais peut conduire à des exemples contradictoires.
- DeepSeek a publié un article sur le RL et le FT pour les LLM, montrant comment cela améliore les capacités de raisonnement.
À retenir
Alors, après cette plongée en eaux profondes dans le monde des LLM, vous vous sentez l’âme d’un ingénieur en IA ? Pas si vite ! Avant de vous lancer dans la création de votre propre ChatGPT, n’oubliez pas que même les experts se battent avec les hallucinations et les biais. Mais bon, au moins, vous pourrez impressionner vos amis avec votre connaissance des “tokens” et du “fine-tuning”.
Sources





