L'IA générative : ni magie, ni mystère
Comprendre sans prérequis ce qu'est une IA générative, comment elle fonctionne en gros, et pourquoi elle se trompe parfois.
Depuis l’arrivée de ChatGPT, le mot est partout. Dans les journaux, à la machine à café, dans la bouche des politiques et des publicitaires. “IA générative” par ci, “IA générative” par là. Et pourtant, si on demandait autour de nous de l’expliquer en une phrase, peu de gens sauraient le faire. On hoche la tête, on fait comme si, et au fond on se sent facilement dépassé.
C’est une drôle de situation : on utilise, ou on entend parler tous les jours, d’une chose qu’on ne comprend pas. La bonne nouvelle, c’est qu’on n’a pas besoin d’être informaticien pour s’en faire une idée juste. À la fin de cet article, on saura expliquer avec ses propres mots ce qu’est une IA générative, comment elle fonctionne dans les grandes lignes, et surtout pourquoi elle se trompe parfois. Pas pour briller en société. Pour s’en servir un peu plus intelligemment.
Le vrai problème : une boîte noire
Quand on se sert d’un outil sans savoir ce qu’il y a dedans, on tombe vite dans l’un de deux pièges.
Le premier, c’est de le croire magique. Il répond à tout, vite, avec assurance, donc on lui fait une confiance aveugle. Le second, c’est l’inverse : ça nous semble louche, incompréhensible, donc on rejette tout en bloc. Or ces deux postures, la confiance aveugle et le rejet en bloc, nous empêchent autant l’une que l’autre de bien utiliser l’outil.
La sortie est au milieu. Comprendre le principe, même grossièrement, c’est reprendre la main. C’est le premier pas pour domestiquer ces outils au lieu de les subir.
”Générative”, ça veut dire quoi au juste ?
Commençons par le mot lui-même. La plupart des programmes qu’on connaît trient, classent, calculent. Une calculatrice calcule. La galerie photo du téléphone classe nos photos par date. Un moteur de recherche comme Google classe des pages.
Une IA générative, elle, fait autre chose : elle produit du contenu nouveau. Du texte, une image, du son, du code. Quelque chose qui n’existait pas avant qu’on le lui demande. Le mot dit juste ça, au fond : elle génère.
Quand ChatGPT rédige un mail à notre place, quand un autre outil fabrique une image à partir d’une simple phrase, on est exactement là. C’est ça, le génératif.
La vraie différence avec un logiciel classique
Voici le point qui change tout, et il est plus simple qu’il n’en a l’air.
Un logiciel classique suit des règles qu’un humain a écrites, une par une. Pensons à une recette de cuisine : si la pâte est trop liquide, ajouter de la farine. Quelqu’un a réfléchi à chaque cas et a écrit l’instruction correspondante. Le programme ne fait qu’exécuter ces règles, fidèlement, sans jamais improviser.
Une IA générative, on ne lui écrit pas les règles. On lui montre des quantités énormes d’exemples, et elle en déduit toute seule des régularités. Personne n’a écrit quelque part “à cette question, réponds ceci”. Elle l’a appris en observant.
C’est une bascule importante : on passe d’un outil à qui on dicte tout, à un outil qui apprend des tendances. D’où vient sa souplesse. D’où viennent aussi, on le verra, ses ratés.
Comment ça marche, en une seule idée
On pourrait croire qu’il y a là-dessous une mécanique d’une complexité vertigineuse. Il y en a une, mais le geste de base, lui, tient en une phrase : le modèle devine le mot suivant le plus probable.
C’est tout. Il regarde le début d’une phrase, et il se demande quel est le mot le plus plausible pour continuer. Puis il l’écrit, puis il recommence, mot après mot, jusqu’à former une réponse entière.
On connaît déjà ce principe sans le savoir : c’est l’autocomplétion du clavier de notre téléphone, celle-là même qui propose le mot d’après quand on tape un message, et qui transforme parfois nos messages en poésie involontaire. Une IA générative fait la même chose, en beaucoup plus puissant et en se trompant beaucoup moins souvent de mot. Et voici le détail étonnant : à force de s’entraîner à deviner le mot suivant sur des montagnes de textes, elle a attrapé au passage la grammaire, des faits, des styles d’écriture, des façons de raisonner. Tout ça, juste en apprenant à compléter des phrases.
Un mot de vocabulaire au passage, parce qu’on le croisera souvent : le modèle ne travaille pas tout à fait mot par mot, mais par token, un petit bout de texte, souvent un morceau de mot. Pour ce qui nous occupe, on peut le lire comme “mot”.
Une précision importante avant d’aller plus loin : ce mécanisme du “mot suivant” décrit les IA qui génèrent du texte, comme ChatGPT. Les générateurs d’images, eux, reposent sur un principe différent, qu’on gardera pour un autre article. L’esprit reste le même, apprendre des régularités sur des exemples, mais la mécanique n’est pas la même.
Pourquoi ça se trompe parfois
On tient maintenant de quoi comprendre le défaut le plus déroutant de ces outils. C’est aussi la partie la plus utile de cet article, donc prenons le temps.
D’abord, distinguons deux façons de se tromper. Il y a se tromper de mot, comme l’autocorrection du téléphone qui glisse un mot pour un autre, ça se voit tout de suite. Et il y a se tromper sur le fond : aligner des mots parfaitement justes pour raconter quelque chose de faux. C’est cette deuxième erreur, bien plus sournoise, qui nous intéresse ici.
Le modèle cherche en effet le mot le plus plausible, pas le plus vrai. La nuance est énorme. Une suite de mots peut sonner parfaitement juste, être bien tournée, crédible, et pourtant raconter n’importe quoi. Le modèle, lui, ne fait pas la différence : il vise ce qui ressemble à une bonne réponse.
Pire : la façon dont ces modèles sont entraînés les pousse à répondre avec assurance plutôt qu’à admettre qu’ils ne savent pas. On connaît tous quelqu’un qui répond à tout avec aplomb, même quand il n’en a aucune idée. Le modèle a un peu ce travers, et pour une raison précise : pendant son apprentissage, dire “je ne sais pas” est rarement récompensé, alors il apprend à tenter sa chance. Résultat, il peut inventer une réponse fausse en la présentant comme une évidence. C’est ce qu’on appelle une hallucination.
Il faut aussi se rappeler deux choses. D’abord, le modèle ne “comprend” pas au sens où nous l’entendons, et il n’a aucune conscience : il calcule des probabilités, rien de plus. Ensuite, il ne connaît que ce qu’il a vu pendant son entraînement, ce qui lui donne des angles morts et une date au-delà de laquelle il ignore l’actualité.
La conséquence pratique est simple, et c’est elle qu’il faut retenir : on garde la main, et on vérifie ce qui compte. L’outil est un assistant remarquable, pas un oracle.
Keynotes
- Une IA générative produit du contenu nouveau, elle ne fait pas que trier ou classer.
- Personne n’écrit ses règles à la main : elle les apprend en observant des quantités d’exemples.
- Pour le texte, son geste de base : deviner le mot suivant le plus probable, un à un.
- Plausible n’est pas vrai : elle peut se tromper sur le fond avec assurance, c’est une hallucination.
- Donc on reste aux commandes : on s’en sert, et on vérifie ce qui compte.
Pour aller plus loin
On a posé les fondations. Le prochain pas, c’est de mettre les mains dedans : ouvrir un de ces outils et faire son premier vrai essai. Ce sera l’objet d’un prochain article.
En attendant, retenons l’essentiel : on n’a pas besoin de tout savoir du moteur pour conduire la voiture. Comprendre le principe, comme on vient de le faire, c’est déjà commencer à domestiquer ces outils plutôt que de les subir. Et c’est exactement là qu’on voulait arriver.
Glossaire
Quelques mots qu’on croise tout le temps autour de l’IA. On garde les termes anglais, ils sont partout, mais voici de quoi ne pas se sentir largué.
Prompt : l’instruction qu’on donne à l’IA. Mieux on la formule, meilleure est la réponse.
Token : un petit bout de texte, souvent un morceau de mot, l’unité que le modèle manipule. On peut le lire comme “mot” sans grand risque.
Hallucination : une réponse fausse présentée avec assurance. Ça arrive, donc on vérifie toujours ce qui compte.
Modèle (LLM) : le programme entraîné qui prédit le texte. LLM veut dire large language model, grand modèle de langage.