LLM(Large Language Model)
Modèle de langage de très grande taille, souvent plusieurs centaines de milliards de paramètres, entraîné à prédire le mot suivant sur d'énormes corpus de texte. GPT, Claude, Gemini et Mistral sont des LLM.
Glossaire IA
Un dictionnaire vivant pour comprendre le vocabulaire qu'on croise chaque semaine dans Hypernews IA. Une définition par terme, sans jargon inutile.
25 termes définis. Mis à jour régulièrement.
Modèle de langage de très grande taille, souvent plusieurs centaines de milliards de paramètres, entraîné à prédire le mot suivant sur d'énormes corpus de texte. GPT, Claude, Gemini et Mistral sont des LLM.
Architecture de réseau de neurones introduite en 2017 par Google dans le papier « Attention Is All You Need ». C'est la base de tous les LLM modernes. Le mécanisme central est l'attention, qui permet au modèle de pondérer dynamiquement l'importance de chaque mot du contexte.
Unité de base manipulée par un LLM. Un token peut être un mot entier, un morceau de mot, ou un signe de ponctuation. Le modèle ne lit pas du texte, il lit une séquence de tokens et en prédit la suite, token par token.
Quantité maximale de tokens qu'un modèle peut traiter en une seule requête. Détermine combien de texte tu peux lui donner d'un coup. Les modèles modernes vont de 128K (GPT-4) à 1-2 millions de tokens (Gemini, Claude).
Instruction donnée à un LLM. La qualité du prompt influe énormément sur la qualité de la réponse, d'où l'expression « prompt engineering » pour désigner l'art de bien formuler ses requêtes.
Technique qui consiste à récupérer des documents pertinents dans une base de connaissances avant de les fournir au LLM pour qu'il y appuie sa réponse. Permet de répondre sur des données privées ou récentes sans réentraîner le modèle.
Représentation numérique d'un texte sous forme de vecteur (une longue liste de nombres). Deux textes sémantiquement proches ont des embeddings proches. C'est ce qui permet à un moteur de recherche par vecteurs de comprendre le sens d'une requête.
Base de données spécialisée dans le stockage et la recherche d'embeddings. Permet de retrouver les documents les plus proches sémantiquement d'une requête en quelques millisecondes. Exemples : Pinecone, Weaviate, Qdrant, pgvector.
Entraînement supplémentaire d'un modèle pré-existant sur un jeu de données spécifique pour le spécialiser sur une tâche ou un domaine. Beaucoup moins coûteux qu'un entraînement from scratch.
Méthode utilisée pour aligner un modèle de langage avec les préférences humaines. Des annotateurs humains classent plusieurs réponses du modèle, et un autre modèle apprend de ces classements pour récompenser le LLM. C'est la sauce secrète qui a transformé GPT-3 en ChatGPT.
Quand un LLM invente des faits qui paraissent crédibles mais sont faux. Cause majeure de méfiance envers ces modèles. Les techniques RAG, le grounding et les reasoning models réduisent ce risque sans l'éliminer totalement.
Modèle capable de traiter plusieurs types d'entrées et de sorties : texte, image, audio, parfois vidéo. GPT-4V, Claude 3.5 Sonnet et Gemini sont multimodaux.
LLM doté de la capacité d'utiliser des outils en autonomie : faire des recherches web, exécuter du code, appeler des APIs, contrôler un navigateur ou un ordinateur. Marque le passage de « assistant qui répond » à « collègue qui agit ».
IA hypothétique qui serait aussi compétente qu'un humain sur l'ensemble des tâches cognitives. Définition contestée, calendrier incertain. À distinguer de la « narrow AI » qui excelle sur des tâches précises.
Phase d'utilisation d'un modèle déjà entraîné, par opposition à la phase d'entraînement. À grande échelle, le coût d'inférence (en GPU et en énergie) dépasse largement celui de l'entraînement.
Modèle dont les poids sont publiquement téléchargeables, mais dont les données d'entraînement et le code complet ne sont pas forcément ouverts. À distinguer de l'open-source au sens strict. Llama et Mistral sont open-weights.
Technique de prompting consistant à demander au modèle de raisonner étape par étape avant de répondre. Améliore drastiquement les performances sur les tâches de raisonnement complexe (maths, logique, code).
Modèle entraîné spécifiquement pour passer du temps à raisonner avant de répondre, en générant en interne une longue chaîne de pensée. OpenAI o1, o3, DeepSeek R1, et Claude avec extended thinking en sont les exemples.
Architecture où plusieurs sous-réseaux spécialisés (les « experts ») sont activés sélectivement selon l'input. Permet des modèles très grands au coût d'inférence réduit. Mixtral, GPT-4 et DeepSeek V3 utilisent du MoE.
Architecture générative principalement utilisée pour les images et les vidéos. Le modèle apprend à inverser un processus de bruitage progressif. Stable Diffusion, Midjourney et Sora reposent sur ce principe.
Modèle de très grande taille pré-entraîné sur un corpus massif et générique, conçu pour servir de base à de nombreuses applications après spécialisation. Le terme a été popularisé par Stanford en 2021.
Règlement européen adopté en 2024 qui classifie les systèmes d'IA selon leur niveau de risque (inacceptable, élevé, limité, minimal) et impose des obligations correspondantes. Premier cadre réglementaire mondial sur l'IA.
Prix pour faire tourner un modèle, généralement exprimé en euros ou dollars par million de tokens. A baissé d'un facteur 100 entre 2023 et 2025 pour des capacités équivalentes, ce qui rend l'IA viable économiquement à grande échelle.
Technique pour compresser un modèle en réduisant la précision de ses poids, par exemple de 16 bits à 4 bits. Permet de faire tourner des LLM sur du matériel plus modeste (laptop, smartphone) avec une perte de qualité limitée.
Pratique consistant à programmer en collaboration intensive avec un LLM via des outils comme Cursor, Claude Code ou Copilot. Expression popularisée en 2025 par Andrej Karpathy. Le développeur décrit l'intention, l'IA produit le code, le développeur ajuste.
Hypernews IA décrypte les annonces, papers et lancements les plus importants de la semaine. Gratuit, sans spam.
S'inscrire