Aller au contenu

Glossaire IA

Tous les termes de l'IA, expliqués clairement.

Un dictionnaire vivant pour comprendre le vocabulaire qu'on croise chaque semaine dans Hypernews IA. Une définition par terme, sans jargon inutile.

25 termes définis. Mis à jour régulièrement.

LLM(Large Language Model)

Modèle de langage de très grande taille, souvent plusieurs centaines de milliards de paramètres, entraîné à prédire le mot suivant sur d'énormes corpus de texte. GPT, Claude, Gemini et Mistral sont des LLM.

Transformer

Architecture de réseau de neurones introduite en 2017 par Google dans le papier « Attention Is All You Need ». C'est la base de tous les LLM modernes. Le mécanisme central est l'attention, qui permet au modèle de pondérer dynamiquement l'importance de chaque mot du contexte.

Token

Unité de base manipulée par un LLM. Un token peut être un mot entier, un morceau de mot, ou un signe de ponctuation. Le modèle ne lit pas du texte, il lit une séquence de tokens et en prédit la suite, token par token.

Context window

Quantité maximale de tokens qu'un modèle peut traiter en une seule requête. Détermine combien de texte tu peux lui donner d'un coup. Les modèles modernes vont de 128K (GPT-4) à 1-2 millions de tokens (Gemini, Claude).

Prompt

Instruction donnée à un LLM. La qualité du prompt influe énormément sur la qualité de la réponse, d'où l'expression « prompt engineering » pour désigner l'art de bien formuler ses requêtes.

RAG(Retrieval-Augmented Generation)

Technique qui consiste à récupérer des documents pertinents dans une base de connaissances avant de les fournir au LLM pour qu'il y appuie sa réponse. Permet de répondre sur des données privées ou récentes sans réentraîner le modèle.

Embedding

Représentation numérique d'un texte sous forme de vecteur (une longue liste de nombres). Deux textes sémantiquement proches ont des embeddings proches. C'est ce qui permet à un moteur de recherche par vecteurs de comprendre le sens d'une requête.

Base de données vectorielle

Base de données spécialisée dans le stockage et la recherche d'embeddings. Permet de retrouver les documents les plus proches sémantiquement d'une requête en quelques millisecondes. Exemples : Pinecone, Weaviate, Qdrant, pgvector.

Fine-tuning

Entraînement supplémentaire d'un modèle pré-existant sur un jeu de données spécifique pour le spécialiser sur une tâche ou un domaine. Beaucoup moins coûteux qu'un entraînement from scratch.

RLHF(Reinforcement Learning from Human Feedback)

Méthode utilisée pour aligner un modèle de langage avec les préférences humaines. Des annotateurs humains classent plusieurs réponses du modèle, et un autre modèle apprend de ces classements pour récompenser le LLM. C'est la sauce secrète qui a transformé GPT-3 en ChatGPT.

Hallucination

Quand un LLM invente des faits qui paraissent crédibles mais sont faux. Cause majeure de méfiance envers ces modèles. Les techniques RAG, le grounding et les reasoning models réduisent ce risque sans l'éliminer totalement.

Modèle multimodal

Modèle capable de traiter plusieurs types d'entrées et de sorties : texte, image, audio, parfois vidéo. GPT-4V, Claude 3.5 Sonnet et Gemini sont multimodaux.

Agent IA

LLM doté de la capacité d'utiliser des outils en autonomie : faire des recherches web, exécuter du code, appeler des APIs, contrôler un navigateur ou un ordinateur. Marque le passage de « assistant qui répond » à « collègue qui agit ».

AGI(Artificial General Intelligence)

IA hypothétique qui serait aussi compétente qu'un humain sur l'ensemble des tâches cognitives. Définition contestée, calendrier incertain. À distinguer de la « narrow AI » qui excelle sur des tâches précises.

Inférence

Phase d'utilisation d'un modèle déjà entraîné, par opposition à la phase d'entraînement. À grande échelle, le coût d'inférence (en GPU et en énergie) dépasse largement celui de l'entraînement.

Open-weights

Modèle dont les poids sont publiquement téléchargeables, mais dont les données d'entraînement et le code complet ne sont pas forcément ouverts. À distinguer de l'open-source au sens strict. Llama et Mistral sont open-weights.

Chain-of-thought(CoT)

Technique de prompting consistant à demander au modèle de raisonner étape par étape avant de répondre. Améliore drastiquement les performances sur les tâches de raisonnement complexe (maths, logique, code).

Reasoning model

Modèle entraîné spécifiquement pour passer du temps à raisonner avant de répondre, en générant en interne une longue chaîne de pensée. OpenAI o1, o3, DeepSeek R1, et Claude avec extended thinking en sont les exemples.

Mixture of Experts(MoE)

Architecture où plusieurs sous-réseaux spécialisés (les « experts ») sont activés sélectivement selon l'input. Permet des modèles très grands au coût d'inférence réduit. Mixtral, GPT-4 et DeepSeek V3 utilisent du MoE.

Modèle de diffusion

Architecture générative principalement utilisée pour les images et les vidéos. Le modèle apprend à inverser un processus de bruitage progressif. Stable Diffusion, Midjourney et Sora reposent sur ce principe.

Foundation model

Modèle de très grande taille pré-entraîné sur un corpus massif et générique, conçu pour servir de base à de nombreuses applications après spécialisation. Le terme a été popularisé par Stanford en 2021.

AI Act

Règlement européen adopté en 2024 qui classifie les systèmes d'IA selon leur niveau de risque (inacceptable, élevé, limité, minimal) et impose des obligations correspondantes. Premier cadre réglementaire mondial sur l'IA.

Coût d'inférence

Prix pour faire tourner un modèle, généralement exprimé en euros ou dollars par million de tokens. A baissé d'un facteur 100 entre 2023 et 2025 pour des capacités équivalentes, ce qui rend l'IA viable économiquement à grande échelle.

Quantization

Technique pour compresser un modèle en réduisant la précision de ses poids, par exemple de 16 bits à 4 bits. Permet de faire tourner des LLM sur du matériel plus modeste (laptop, smartphone) avec une perte de qualité limitée.

Vibe coding

Pratique consistant à programmer en collaboration intensive avec un LLM via des outils comme Cursor, Claude Code ou Copilot. Expression popularisée en 2025 par Andrej Karpathy. Le développeur décrit l'intention, l'IA produit le code, le développeur ajuste.

Recevoir l'actualité IA chaque jeudi.

Hypernews IA décrypte les annonces, papers et lancements les plus importants de la semaine. Gratuit, sans spam.

S'inscrire