Question 1

LLM (Large Language Model) ?

Accepted Answer

Modèle de langage de très grande taille, souvent plusieurs centaines de milliards de paramètres, entraîné à prédire le mot suivant sur d'énormes corpus de texte. GPT, Claude, Gemini et Mistral sont des LLM.

Question 2

Transformer ?

Accepted Answer

Architecture de réseau de neurones introduite en 2017 par Google dans le papier « Attention Is All You Need ». C'est la base de tous les LLM modernes. Le mécanisme central est l'attention, qui permet au modèle de pondérer dynamiquement l'importance de chaque mot du contexte.

Question 3

Token ?

Accepted Answer

Unité de base manipulée par un LLM. Un token peut être un mot entier, un morceau de mot, ou un signe de ponctuation. Le modèle ne lit pas du texte, il lit une séquence de tokens et en prédit la suite, token par token.

Question 4

Context window ?

Accepted Answer

Quantité maximale de tokens qu'un modèle peut traiter en une seule requête. Détermine combien de texte tu peux lui donner d'un coup. Les modèles modernes vont de 128K (GPT-4) à 1-2 millions de tokens (Gemini, Claude).

Question 5

Prompt ?

Accepted Answer

Instruction donnée à un LLM. La qualité du prompt influe énormément sur la qualité de la réponse, d'où l'expression « prompt engineering » pour désigner l'art de bien formuler ses requêtes.

Question 6

RAG (Retrieval-Augmented Generation) ?

Accepted Answer

Technique qui consiste à récupérer des documents pertinents dans une base de connaissances avant de les fournir au LLM pour qu'il y appuie sa réponse. Permet de répondre sur des données privées ou récentes sans réentraîner le modèle.

Question 7

Embedding ?

Accepted Answer

Représentation numérique d'un texte sous forme de vecteur (une longue liste de nombres). Deux textes sémantiquement proches ont des embeddings proches. C'est ce qui permet à un moteur de recherche par vecteurs de comprendre le sens d'une requête.

Question 8

Base de données vectorielle ?

Accepted Answer

Base de données spécialisée dans le stockage et la recherche d'embeddings. Permet de retrouver les documents les plus proches sémantiquement d'une requête en quelques millisecondes. Exemples : Pinecone, Weaviate, Qdrant, pgvector.

Question 9

Fine-tuning ?

Accepted Answer

Entraînement supplémentaire d'un modèle pré-existant sur un jeu de données spécifique pour le spécialiser sur une tâche ou un domaine. Beaucoup moins coûteux qu'un entraînement from scratch.

Question 10

RLHF (Reinforcement Learning from Human Feedback) ?

Accepted Answer

Méthode utilisée pour aligner un modèle de langage avec les préférences humaines. Des annotateurs humains classent plusieurs réponses du modèle, et un autre modèle apprend de ces classements pour récompenser le LLM. C'est la sauce secrète qui a transformé GPT-3 en ChatGPT.

Question 11

Hallucination ?

Accepted Answer

Quand un LLM invente des faits qui paraissent crédibles mais sont faux. Cause majeure de méfiance envers ces modèles. Les techniques RAG, le grounding et les reasoning models réduisent ce risque sans l'éliminer totalement.

Question 12

Modèle multimodal ?

Accepted Answer

Modèle capable de traiter plusieurs types d'entrées et de sorties : texte, image, audio, parfois vidéo. GPT-4V, Claude 3.5 Sonnet et Gemini sont multimodaux.

Question 13

Agent IA ?

Accepted Answer

LLM doté de la capacité d'utiliser des outils en autonomie : faire des recherches web, exécuter du code, appeler des APIs, contrôler un navigateur ou un ordinateur. Marque le passage de « assistant qui répond » à « collègue qui agit ».

Question 14

AGI (Artificial General Intelligence) ?

Accepted Answer

IA hypothétique qui serait aussi compétente qu'un humain sur l'ensemble des tâches cognitives. Définition contestée, calendrier incertain. À distinguer de la « narrow AI » qui excelle sur des tâches précises.

Question 15

Inférence ?

Accepted Answer

Phase d'utilisation d'un modèle déjà entraîné, par opposition à la phase d'entraînement. À grande échelle, le coût d'inférence (en GPU et en énergie) dépasse largement celui de l'entraînement.

Question 16

Open-weights ?

Accepted Answer

Modèle dont les poids sont publiquement téléchargeables, mais dont les données d'entraînement et le code complet ne sont pas forcément ouverts. À distinguer de l'open-source au sens strict. Llama et Mistral sont open-weights.

Question 17

Chain-of-thought (CoT) ?

Accepted Answer

Technique de prompting consistant à demander au modèle de raisonner étape par étape avant de répondre. Améliore drastiquement les performances sur les tâches de raisonnement complexe (maths, logique, code).

Question 18

Reasoning model ?

Accepted Answer

Modèle entraîné spécifiquement pour passer du temps à raisonner avant de répondre, en générant en interne une longue chaîne de pensée. OpenAI o1, o3, DeepSeek R1, et Claude avec extended thinking en sont les exemples.

Question 19

Mixture of Experts (MoE) ?

Accepted Answer

Architecture où plusieurs sous-réseaux spécialisés (les « experts ») sont activés sélectivement selon l'input. Permet des modèles très grands au coût d'inférence réduit. Mixtral, GPT-4 et DeepSeek V3 utilisent du MoE.

Question 20

Modèle de diffusion ?

Accepted Answer

Architecture générative principalement utilisée pour les images et les vidéos. Le modèle apprend à inverser un processus de bruitage progressif. Stable Diffusion, Midjourney et Sora reposent sur ce principe.

Question 21

Foundation model ?

Accepted Answer

Modèle de très grande taille pré-entraîné sur un corpus massif et générique, conçu pour servir de base à de nombreuses applications après spécialisation. Le terme a été popularisé par Stanford en 2021.

Question 22

AI Act ?

Accepted Answer

Règlement européen adopté en 2024 qui classifie les systèmes d'IA selon leur niveau de risque (inacceptable, élevé, limité, minimal) et impose des obligations correspondantes. Premier cadre réglementaire mondial sur l'IA.

Question 23

Coût d'inférence ?

Accepted Answer

Prix pour faire tourner un modèle, généralement exprimé en euros ou dollars par million de tokens. A baissé d'un facteur 100 entre 2023 et 2025 pour des capacités équivalentes, ce qui rend l'IA viable économiquement à grande échelle.

Question 24

Quantization ?

Accepted Answer

Technique pour compresser un modèle en réduisant la précision de ses poids, par exemple de 16 bits à 4 bits. Permet de faire tourner des LLM sur du matériel plus modeste (laptop, smartphone) avec une perte de qualité limitée.

Question 25

Vibe coding ?

Accepted Answer

Pratique consistant à programmer en collaboration intensive avec un LLM via des outils comme Cursor, Claude Code ou Copilot. Expression popularisée en 2025 par Andrej Karpathy. Le développeur décrit l'intention, l'IA produit le code, le développeur ajuste.

Tous les termes de l'IA, expliqués clairement.

LLM(Large Language Model)

Transformer

Token

Context window

Prompt

RAG(Retrieval-Augmented Generation)

Embedding

Base de données vectorielle

Fine-tuning

RLHF(Reinforcement Learning from Human Feedback)

Hallucination

Modèle multimodal

Agent IA

AGI(Artificial General Intelligence)

Inférence

Open-weights

Chain-of-thought(CoT)

Reasoning model

Mixture of Experts(MoE)

Modèle de diffusion

Foundation model

AI Act

Coût d'inférence

Quantization

Vibe coding

Recevoir l'actualité IA chaque jeudi.