{"id":668,"date":"2025-04-30T12:08:06","date_gmt":"2025-04-30T10:08:06","guid":{"rendered":"https:\/\/www.claravista.ai\/blog\/?p=668"},"modified":"2025-04-30T12:08:07","modified_gmt":"2025-04-30T10:08:07","slug":"aux-origines-de-lia-generative-comprendre-ses-modeles-et-son-essor","status":"publish","type":"post","link":"https:\/\/www.claravista.ai\/blog\/2025\/04\/30\/aux-origines-de-lia-generative-comprendre-ses-modeles-et-son-essor\/","title":{"rendered":"Aux Origines de l\u2019IA G\u00e9n\u00e9rative : Comprendre ses Mod\u00e8les et son Essor"},"content":{"rendered":"<div class=\"pt-1\">\n<p class=\"has-medium-font-size\"><em><a href=\"https:\/\/www.linkedin.com\/in\/ahmedaminehomman\/\">Ahmed-Amine HOMMAN<\/a>, Research Project Manager<\/em><\/p>\n\n\n\n<p style=\"font-size:16px\">En quelques ann\u00e9es, l'IA g\u00e9n\u00e9rative est pass\u00e9e d'un sujet de laboratoire \u00e0 une technologie omnipr\u00e9sente dans notre quotidien. Cr\u00e9er un texte en quelques secondes, g\u00e9n\u00e9rer une image \u00e0 partir d'une simple description, produire une musique in\u00e9dite : ces prouesses, jadis dignes de la science-fiction, sont aujourd'hui accessibles \u00e0 tous. Mais que se cache-t-il r\u00e9ellement sous le capot de ces mod\u00e8les capables d'inventer, d'adapter et de mimer la cr\u00e9ativit\u00e9 humaine ?<\/p>\n\n\n\n<h2 class=\"wp-block-heading has-text-color has-link-color has-large-font-size wp-elements-16c328fa54ade48a3f78e6eae17aadae\" style=\"color:#040065;font-style:normal;font-weight:700\">Introduction<\/h2>\n\n\n\n<p style=\"font-size:16px\">L'intelligence artificielle a longtemps \u00e9t\u00e9 per\u00e7ue comme un outil d'analyse, d'optimisation et de classification. Mais depuis quelques ann\u00e9es, une r\u00e9volution silencieuse s'est amorc\u00e9e : l'\u00e9mergence de l'IA g\u00e9n\u00e9rative. Contrairement aux mod\u00e8les traditionnels, qui se limitent \u00e0 reconna\u00eetre et organiser l'information, ces nouveaux syst\u00e8mes sont capables de cr\u00e9er de toutes pi\u00e8ces du texte, des images, du son ou encore du code.<\/p>\n\n\n\n<p style=\"font-size:16px\">Ce bond technologique a \u00e9t\u00e9 rendu possible par des avanc\u00e9es dans l'apprentissage automatique et la disponibilit\u00e9 de gigantesques volumes de donn\u00e9es. L\u2019essor des mod\u00e8les comme GPT pour le texte, Stable Diffusion pour l'image ou encore les encodeurs s\u00e9mantiques comme CLIP marque une nouvelle \u00e8re : celle d'une intelligence artificielle qui ne se contente plus d'exploiter l'existant, mais qui peut produire du contenu original, parfois surprenant.<\/p>\n\n\n\n<p style=\"font-size:16px\">Dans cet article, nous allons explorer les fondements de cette technologie en distinguant trois grandes cat\u00e9gories de mod\u00e8les : les <strong>LLMs<\/strong> (<em>Large Language Models<\/em>), qui manipulent le texte et sont capables de raisonnement (tels les mod\u00e8les derri\u00e8re les agents conversationnels comme ChatGPT par exemple) ; les <strong>Diffuseurs<\/strong>, qui g\u00e9n\u00e8rent des images et des vid\u00e9os ; et les <strong>Encodeurs<\/strong>, qui transforment des donn\u00e9es non structur\u00e9es telles que du texte ou des images en repr\u00e9sentations vectorielles math\u00e9matiques permettant d\u2019en extraire plus facilement le sens. Avant de plonger dans ces diff\u00e9rentes familles, prenons un moment pour comprendre ce qui distingue l'IA g\u00e9n\u00e9rative des approches plus classiques.<\/p>\n\n\n\n<h2 class=\"wp-block-heading has-text-color has-link-color has-large-font-size wp-elements-217058cf4be6e2ae0b24d96a1001ed0b\" style=\"color:#040065;font-style:normal;font-weight:700\"><strong>IA G\u00e9n\u00e9rative vs IA Discriminative<\/strong><\/h2>\n\n\n\n<p style=\"font-size:16px\">L'intelligence artificielle, vaste domaine d'\u00e9tude, peut \u00eatre appr\u00e9hend\u00e9e \u00e0 travers le prisme de deux grandes cat\u00e9gories : l'IA <em>discriminative<\/em> et l'IA <em>g\u00e9n\u00e9rative<\/em>. Cette distinction, fondamentale, r\u00e9side dans leur finalit\u00e9 et leur approche du traitement des donn\u00e9es.<\/p>\n\n\n\n<p style=\"font-size:16px\">L'IA <strong>discriminative<\/strong> se concentre sur la classification et l'\u00e9tiquetage de donn\u00e9es existantes. Son r\u00f4le consiste \u00e0 identifier des motifs, des structures, et \u00e0 attribuer des cat\u00e9gories ou des probabilit\u00e9s \u00e0 ces donn\u00e9es. Par exemple, face \u00e0 une image, elle d\u00e9terminera s'il s'agit d'un chat, d'un chien, ou d'un autre objet. Son champ d'application s'\u00e9tend \u00e0 la reconnaissance d'objets, la d\u00e9tection de spam, ou encore l'analyse de sentiments.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"604\" height=\"302\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_discriminativeai.jpg\" alt=\"\" class=\"wp-image-671\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_discriminativeai.jpg 604w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_discriminativeai-300x150.jpg 300w\" sizes=\"(max-width: 604px) 100vw, 604px\" \/><figcaption class=\"wp-element-caption\"><strong>Exemple d'IA discriminative : un mod\u00e8le capable de reconna\u00eetre l'animal pr\u00e9sent sur une photo<\/strong>.<\/figcaption><\/figure><\/div>\n\n\n<p style=\"font-size:16px\">L'IA <strong>g\u00e9n\u00e9rative<\/strong>, \u00e0 l'inverse, a pour vocation la cr\u00e9ation de nouvelles donn\u00e9es. Elle s'appuie sur les sch\u00e9mas et les structures appris pour synth\u00e9tiser des informations originales, qu'il s'agisse de texte, d'images, de musique ou d'autres formes de contenu. Ainsi, plut\u00f4t que de simplement identifier un chat sur une image, elle sera capable de g\u00e9n\u00e9rer une image d'un chat, avec une apparence in\u00e9dite.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"604\" height=\"302\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_generativeai.jpg\" alt=\"Sch\u00e9ma d\u00e9crivant le fonctionnement d'une IA g\u00e9n\u00e9rative : \u00e0 partir de texte d\u00e9crivant un animal donn\u00e9, elle g\u00e9n\u00e8re des images repr\u00e9sentant cet animal.\" class=\"wp-image-672\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_generativeai.jpg 604w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_generativeai-300x150.jpg 300w\" sizes=\"(max-width: 604px) 100vw, 604px\" \/><figcaption class=\"wp-element-caption\"><strong>Un exemple d'IA g\u00e9n\u00e9rative : un mod\u00e8le capable de g\u00e9n\u00e9rer l'animal d\u00e9sir\u00e9 (note: les images ci-dessus ont r\u00e9ellement \u00e9t\u00e9 g\u00e9n\u00e9r\u00e9es \u00e0 partir des textes par <a href=\"http:\/\/blackforestlabs.ai\/ultra-home\/\">Flux-1.1-pro-ultra<\/a>).<\/strong><\/figcaption><\/figure><\/div>\n\n\n<p style=\"font-size:16px\">Il est important de souligner que<em> la distinction entre IA g\u00e9n\u00e9rative et discriminative ne tient pas tant aux mod\u00e8les, algorithmes ou architectures employ\u00e9s, mais plut\u00f4t \u00e0 leur utilisation et \u00e0 l'objectif poursuivi.<\/em> Un m\u00eame mod\u00e8le peut \u00eatre exploit\u00e9 de mani\u00e8re discriminative ou g\u00e9n\u00e9rative, selon la t\u00e2che \u00e0 laquelle il est assign\u00e9.<\/p>\n\n\n\n<p style=\"font-size:16px\">Prenons l'exemple de l'analyse de s\u00e9ries temporelles. Un mod\u00e8le pr\u00e9dictif peut \u00eatre utilis\u00e9 de mani\u00e8re discriminative pour pr\u00e9dire la valeur suivante d'une s\u00e9rie. Cependant, en int\u00e9grant cette pr\u00e9diction \u00e0 la s\u00e9rie et en r\u00e9it\u00e9rant le processus, le mod\u00e8le devient capable de g\u00e9n\u00e9rer une s\u00e9quence de donn\u00e9es, se rapprochant ainsi d'une approche g\u00e9n\u00e9rative.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"943\" height=\"415\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_generative_process.jpg\" alt=\"\" class=\"wp-image-673\" style=\"width:840px;height:auto\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_generative_process.jpg 943w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_generative_process-300x132.jpg 300w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_generative_process-768x338.jpg 768w\" sizes=\"(max-width: 943px) 100vw, 943px\" \/><figcaption class=\"wp-element-caption\"><strong>Illustration d'un processus g\u00e9n\u00e9ratif pour des donn\u00e9es s\u00e9quentielles.<\/strong><\/figcaption><\/figure><\/div>\n\n\n<p style=\"font-size:16px\">En bref, l'IA discriminative excelle dans la reconnaissance et la classification, tandis que l'IA g\u00e9n\u00e9rative se distingue par sa capacit\u00e9 \u00e0 cr\u00e9er. Les deux approches sont essentielles, mais leurs applications et leurs implications diff\u00e8rent consid\u00e9rablement.<\/p>\n\n\n\n<h2 class=\"wp-block-heading has-text-color has-link-color has-large-font-size wp-elements-3a589cd122348d6f91a7fb1557ecb9d6\" style=\"color:#040065;font-style:normal;font-weight:700\"><strong>Historique<\/strong><\/h2>\n\n\n\n<p style=\"font-size:16px\">L\u2019IA G\u00e9n\u00e9rative, comme toute avanc\u00e9e technologique et scientifique, n\u2019est pas sortie de nulle part, et s\u2019inscrit dans une longue lign\u00e9e d\u2019avanc\u00e9es et de d\u00e9couvertes qui ont pav\u00e9 le chemin pour arriver aux mod\u00e8les \u201cpr\u00e9curseurs\u201d, qui peuvent \u00eatre consid\u00e9r\u00e9s comme les premiers mod\u00e8les d\u2019IA G\u00e9n\u00e9rative dans le sens o\u00f9 on l\u2019entend aujourd\u2019hui.<\/p>\n\n\n\n<h3 class=\"wp-block-heading has-text-color has-link-color wp-elements-958f523b193d180adaad5980745c0606\" style=\"color:#277d9c;font-size:31px;font-style:normal;font-weight:700\">Comment en est-on arriv\u00e9 l\u00e0 ?<\/h3>\n\n\n\n<p style=\"font-size:16px\">Contrairement \u00e0 une id\u00e9e re\u00e7ue, l'IA g\u00e9n\u00e9rative n'a pas \u00e9clos en 2022 avec l'arriv\u00e9e de ChatGPT ou la publication de Stable Diffusion. De nombreux mod\u00e8les g\u00e9n\u00e9ratifs existaient d\u00e9j\u00e0 bien avant, capables de cr\u00e9er divers types de donn\u00e9es.<\/p>\n\n\n\n<p style=\"font-size:16px\">Dans le domaine du traitement du langage naturel, la <a href=\"https:\/\/en.wikipedia.org\/wiki\/Latent_Dirichlet_allocation\"><em>Latent Dirichlet Allocation<\/em><\/a> (LDA), par exemple, pr\u00e9sent\u00e9e en <a href=\"https:\/\/proceedings.neurips.cc\/paper\/2001\/hash\/296472c9542ad4d4788d543508116cbc-Abstract.html\">2001<\/a> \u00e0 la conf\u00e9rence NeurIPS puis en <a href=\"https:\/\/www.jmlr.org\/papers\/volume3\/blei03a\/blei03a.pdf\">2003<\/a> dans le <em>Journal of Machine Learning Research<\/em> (avec, parmi ses auteurs, un certain <a href=\"https:\/\/www.andrewng.org\/\">Andrew Ng<\/a>, dont vous avez peut-\u00eatre d\u00e9j\u00e0 entendu parler \ud83d\ude09), parvenait \u00e0 g\u00e9n\u00e9rer du texte similaire au corpus d'entra\u00eenement gr\u00e2ce \u00e0 des m\u00e9thodes probabilistes. Bien que le texte g\u00e9n\u00e9r\u00e9 ne f\u00fbt pas toujours intelligible <em>stricto sensu<\/em>, les mots produits respectaient une distribution de probabilit\u00e9 d'occurrence proche du corpus d'entra\u00eenement, permettant ainsi de deviner le th\u00e8me abord\u00e9.<\/p>\n\n\n\n<p style=\"font-size:16px\">Du c\u00f4t\u00e9 de la g\u00e9n\u00e9ration d'images, les <a href=\"https:\/\/en.wikipedia.org\/wiki\/Generative_adversarial_network\"><em>Generative Adversarial Networks<\/em><\/a> (GAN), introduits en <a href=\"https:\/\/doi.org\/10.1145\/3422622\">2014<\/a> par Ian Goodfellow et ses collaborateurs (parmi lesquels figure <a href=\"https:\/\/yoshuabengio.org\/fr\/\">Joshua Bengio<\/a>, figure \u00e9minente du domaine), r\u00e9ussissaient \u00e0 reproduire de mani\u00e8re convaincante des images similaires \u00e0 celles observ\u00e9es durant leur entra\u00eenement. En particulier, entra\u00een\u00e9s sur des photographies de portraits, ces mod\u00e8les parvenaient \u00e0 g\u00e9n\u00e9rer <a href=\"https:\/\/en.wikipedia.org\/wiki\/Generative_adversarial_network#\/media\/File:Woman_1.jpg\">des visages synth\u00e9tiques saisissants de r\u00e9alisme<\/a>.<\/p>\n\n\n\n<p style=\"font-size:16px\">Dans le domaine de l'encodage du langage, les premi\u00e8res approches repr\u00e9sentaient les textes en comptant l\u2019occurrence des mots dans le corpus, comme avec <a href=\"https:\/\/doi.org\/10.1016\/0306-4573(88)90021-0\">TF-IDF<\/a>, propos\u00e9 en 1988. L\u2019\u00e9mergence de l\u2019apprentissage profond permit ensuite de produire des vecteurs denses et plus riches, \u00e0 l\u2019image de <a href=\"https:\/\/doi.org\/10.48550\/arXiv.1301.3781\">Word2Vec<\/a> (2013), qui capturait le sens des mots via un r\u00e9seau de neurones peu profond. Cette approche fut \u00e9tendue aux phrases et documents avec <a href=\"https:\/\/proceedings.mlr.press\/v32\/le14.html\">Doc2Vec<\/a>, propos\u00e9 en 2014. Si ces mod\u00e8les rendaient enfin le langage manipulable num\u00e9riquement, ils restaient limit\u00e9s : incapables de traiter efficacement les d\u00e9pendances \u00e0 longue distance et de saisir la polys\u00e9mie du langage, o\u00f9 un m\u00eame mot change de sens selon le contexte.<\/p>\n\n\n\n<p style=\"font-size:16px\">L'ann\u00e9e 2017 marque un tournant d\u00e9cisif avec la publication de <a href=\"https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2017\/file\/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf\"><em>Attention is All You Need<\/em><\/a>, introduisant l'architecture des <a href=\"https:\/\/en.wikipedia.org\/wiki\/Transformer_(deep_learning_architecture)\"><em>Transformers<\/em><\/a>. Son innovation cl\u00e9, le <em>m\u00e9canisme d\u2019attention<\/em>, permet aux mod\u00e8les de rep\u00e9rer les relations entre des \u00e9l\u00e9ments distants au sein d\u2019une s\u00e9quence. Appliqu\u00e9 au langage naturel, ce m\u00e9canisme facilite la compr\u00e9hension des liens entre des mots \u00e9loign\u00e9s dans une phrase. Par exemple, dans <em>\"Paul est parti en voyage, il reviendra demain\"<\/em>, l\u2019attention permet d\u2019associer <em>\"il\"<\/em> \u00e0 <em>\"Paul\"<\/em>, une t\u00e2che o\u00f9 les mod\u00e8les pr\u00e9c\u00e9dents \u00e9chouaient souvent. Cette avanc\u00e9e a ouvert la voie aux premiers mod\u00e8les d\u2019IA capables d\u2019analyser le langage avec une pr\u00e9cision in\u00e9dite, amor\u00e7ant la r\u00e9volution des intelligences artificielles g\u00e9n\u00e9ratives.<\/p>\n\n\n\n<p style=\"font-size:16px\">Dans le domaine du langage naturel, le mod\u00e8le \"pr\u00e9curseur\" fut le <a href=\"https:\/\/cdn.openai.com\/research-covers\/language-unsupervised\/language_understanding_paper.pdf\"><em>Generative Pretrained Transformer<\/em><\/a> (GPT, cela vous rappelle quelque chose ?), ou \"GPT 1\", publi\u00e9 en 2018 par des chercheurs d'OpenAI (dont <a href=\"https:\/\/fr.wikipedia.org\/wiki\/Ilya_Sutskever\">Ilya Sutskever<\/a>, qui a r\u00e9cemment fait parler de lui pour sa tentative rat\u00e9e d\u2019expulsion de Sam Altman du comit\u00e9 directeur d\u2019OpenAI \ud83d\ude05). Ce mod\u00e8le, premier grand nom de la cat\u00e9gorie d\u00e9sormais connue sous le nom de <em>Large Language Models<\/em>, \u00e9tait capable de g\u00e9n\u00e9rer du texte intelligible et grammaticalement correct. Il pouvait compl\u00e9ter un texte fourni en entr\u00e9e ou, plus impressionnant encore, g\u00e9n\u00e9rer du texte de toutes pi\u00e8ces. Ses it\u00e9rations successives, GPT-2 et GPT-3, ont permis d'aboutir \u00e0 GPT-3.5, qui alimentait la premi\u00e8re version de ChatGPT.<\/p>\n\n\n\n<p style=\"font-size:16px\">Dans le domaine de la g\u00e9n\u00e9ration d'images, le mod\u00e8le pr\u00e9curseur fut <a href=\"https:\/\/doi.org\/10.48550\/arXiv.2112.10752\">Stable Diffusion<\/a>, introduit en 2022 par un groupe de chercheurs qui ont ensuite fond\u00e9 l'entreprise <a href=\"https:\/\/stability.ai\/\">Stability AI<\/a>, un acteur majeur du secteur. Ce mod\u00e8le permettait de g\u00e9n\u00e9rer, \u00e0 partir d'une description textuelle, une image en la \"reconstruisant\" \u00e0 partir d'une image enti\u00e8rement bruit\u00e9e (c'est-\u00e0-dire ne contenant aucune information).<\/p>\n\n\n\n<p style=\"font-size:16px\">Enfin, dans le domaine de la repr\u00e9sentation vectorielle (encodeurs), le premier mod\u00e8le pr\u00e9curseur fut <a href=\"https:\/\/arxiv.org\/abs\/1810.04805v2\">BERT<\/a> (Bidirectional Encoder Representations from Transformers), introduit en 2018 par des chercheurs de Google. Ce mod\u00e8le a r\u00e9volutionn\u00e9 l\u2019analyse du langage naturel en permettant de repr\u00e9senter avec pr\u00e9cision le sens d\u2019un texte sous forme de vecteurs dans un espace dit latent. Concr\u00e8tement, BERT transforme les mots et phrases en repr\u00e9sentations num\u00e9riques qui capturent leurs significations et relations contextuelles, facilitant ainsi leur traitement par des algorithmes. Son introduction a ouvert la voie \u00e0 une multitude de mod\u00e8les capables d\u2019encoder non seulement du texte, mais aussi d\u2019autres types de contenu comme la musique, les images et les vid\u00e9os, rendant ces donn\u00e9es exploitables par d\u2019autres mod\u00e8les pr\u00e9dictifs avec une finesse in\u00e9dite.<\/p>\n\n\n\n<p style=\"font-size:16px\">Ces mod\u00e8les pr\u00e9curseurs ont ensuite \u00e9t\u00e9 am\u00e9lior\u00e9s par it\u00e9rations successives, int\u00e9grant de nombreuses optimisations, issues du m\u00eame domaine ou d'autres types de mod\u00e8les, pour aboutir aux IA d'aujourd'hui, qui sont nettement plus performantes que leurs pr\u00e9d\u00e9cesseurs, atteignant des performances aux benchmarks principaux de la communaut\u00e9 bien sup\u00e9rieures pour une fraction du co\u00fbt en ressource.<\/p>\n\n\n\n<h3 class=\"wp-block-heading has-text-color has-link-color wp-elements-ca3a23c2543ecf1a417997b0a7eec5cd\" style=\"color:#277d9c;font-size:31px;font-style:normal;font-weight:700\">Une envol\u00e9e des performances<\/h3>\n\n\n\n<p style=\"font-size:16px\">Dans tous les domaines que nous avons abord\u00e9s, une augmentation spectaculaire des performances a \u00e9t\u00e9 observ\u00e9e au fil des it\u00e9rations successives de chaque mod\u00e8le. En effet, les publications se sont succ\u00e9d\u00e9 \u00e0 un rythme effr\u00e9n\u00e9, chacune pr\u00e9sentant un nouveau mod\u00e8le. Ces mod\u00e8les ont soit d\u00e9pass\u00e9 de mani\u00e8re significative les meilleurs mod\u00e8les pr\u00e9c\u00e9dents en termes de scores sur les principaux benchmarks de la communaut\u00e9, soit r\u00e9duit consid\u00e9rablement les co\u00fbts n\u00e9cessaires pour atteindre des performances \u00e9quivalentes, soit carr\u00e9ment les deux \u00e0 la fois !<\/p>\n\n\n\n<p style=\"font-size:16px\">Dans le domaine des LLM, en deux ans seulement, les meilleurs mod\u00e8les ont atteint des sommets d'intelligence sur les benchmarks \u00ab classiques \u00bb (<a href=\"https:\/\/arxiv.org\/abs\/2009.03300\">MMLU<\/a> pour la compr\u00e9hension multilingue, <a href=\"https:\/\/arxiv.org\/abs\/1905.07830\">HellaSwag<\/a> testant le raisonnement, <a href=\"https:\/\/arxiv.org\/abs\/2103.03874v2\">MATH<\/a> pour les questions math\u00e9matiques, etc..). De nouveaux benchmarks, pr\u00e9sentant des probl\u00e8mes \u00e0 r\u00e9soudre encore plus complexes, de niveau doctoral, ont m\u00eame d\u00fb \u00eatre con\u00e7us pour les d\u00e9partager (un bel exemple est le <em>benchmark<\/em> <a href=\"https:\/\/agi.safe.ai\/\">Humanity Last Exam<\/a>, compos\u00e9 de questions ardues sur un vaste panel de sujets). Parall\u00e8lement, les prix propos\u00e9s par les principales API offrant les services de ces mod\u00e8les ont chut\u00e9 de plusieurs ordres de grandeur.<\/p>\n\n\n\n<div class=\"wp-block-columns is-layout-flex wp-container-core-columns-layout-1 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\"><div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"755\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/llm_cost_historical.webp\" alt=\"Graphique pr\u00e9sentant la diminution drastique (divis\u00e9 par un facteur 100) des co\u00fbts par &quot;token&quot; des principaux LLMs au-dessus d'un score MMLU minimal.\" class=\"wp-image-674\" style=\"object-fit:cover;width:400px;height:300px\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/llm_cost_historical.webp 1024w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/llm_cost_historical-300x221.webp 300w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/llm_cost_historical-768x566.webp 768w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\"><strong>Historique du co\u00fbt par token des principaux LLMs.<\/strong><\/figcaption><\/figure><\/div><\/div>\n\n\n\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\"><div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"619\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/llm_score_historical-1024x619.png\" alt=\"Graphique pr\u00e9sentant l'\u00e9volution des scores MMLU des principaux LLMs au cours du temps. Les points augmentent de mani\u00e8re lin\u00e9aire avec le temps.\" class=\"wp-image-675\" style=\"object-fit:cover;width:400px;height:300px\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/llm_score_historical-1024x619.png 1024w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/llm_score_historical-300x181.png 300w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/llm_score_historical-768x464.png 768w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/llm_score_historical-1536x929.png 1536w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/llm_score_historical.png 1978w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\"><strong>Historique des performances MMLU des principaux LLMs.<\/strong><\/figcaption><\/figure><\/div><\/div>\n<\/div>\n\n\n\n<p style=\"font-size:16px\">Les deux graphiques ci-dessus sont embl\u00e9matiques : du c\u00f4t\u00e9 gauche, on voit que le co\u00fbt par <em>token<\/em> (unit\u00e9 de mesure de co\u00fbt dans le domaine des LLMs) a score MMLU \u00e9gal a \u00e9t\u00e9 divis\u00e9 par 100 alors que du c\u00f4t\u00e9 droit, on observe une augmentation lin\u00e9aire des scores MMLUs des meilleurs mod\u00e8les.<\/p>\n\n\n\n<p style=\"font-size:16px\">Dans le domaine des Diffuseurs, les performances ont \u00e9galement explos\u00e9, et les mod\u00e8les sont d\u00e9sormais capables de g\u00e9n\u00e9rer des images d'une qualit\u00e9 \u00e9poustouflante et de comprendre des prompts tr\u00e8s complexes. Cependant, contrairement aux LLM, les co\u00fbts n'ont pas diminu\u00e9 dans les m\u00eames proportions, \u00e0 niveau de performance constant, et les mod\u00e8les sont devenus beaucoup plus volumineux.<\/p>\n\n\n\n<p style=\"font-size:16px\">En t\u00e9moignent toutes les images ci-dessous, qui ont \u00e9t\u00e9 g\u00e9n\u00e9r\u00e9es \u00e0 partir de la m\u00eame description :<\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">A brave musketeer cat walking in the streets of a fantasy version of renaissance paris by night<\/pre>\n\n\n\n<figure class=\"wp-block-gallery has-nested-images columns-default is-cropped wp-block-gallery-1 is-layout-flex wp-block-gallery-is-layout-flex\">\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"768\" height=\"768\" data-id=\"685\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/cat_sd1.png\" alt=\"Un personnage anthropomorphe v\u00eatu en mousquetaire, habill\u00e9 d'un uniforme noir orn\u00e9 de d\u00e9tails rouges et dor\u00e9s, se tient au centre d'une ruelle pav\u00e9e au style historique, baign\u00e9e par une lumi\u00e8re lunaire douce. Il ajuste son large chapeau \u00e0 plume d'une main tandis qu'une \u00e9p\u00e9e repose \u00e0 sa taille. Un chat noir l'accompagne, marchant \u00e0 ses c\u00f4t\u00e9s. La sc\u00e8ne \u00e9voque une ambiance de conte ou d'illustration fantastique, avec des b\u00e2timents anciens aux volets verts et aux lanternes suspendues. Des objets bris\u00e9s, dont une roue en bois et un meuble renvers\u00e9, sugg\u00e8rent un r\u00e9cent tumulte.\" class=\"wp-image-685\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/cat_sd1.png 768w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/cat_sd1-300x300.png 300w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/cat_sd1-150x150.png 150w\" sizes=\"(max-width: 768px) 100vw, 768px\" \/><figcaption class=\"wp-element-caption\">SD 1<\/figcaption><\/figure>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"768\" height=\"768\" data-id=\"686\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/cat_sdxl.png\" alt=\"Un chat blanc majestueux, aux yeux per\u00e7ants, est habill\u00e9 en mousquetaire avec un \u00e9l\u00e9gant costume bleu orn\u00e9 de dorures, des gants en cuir et un chapeau tricorne avec une plume. Il tient une \u00e9p\u00e9e fine \u00e0 la main, pr\u00eat \u00e0 d\u00e9gainer, tandis qu'il marche avec assurance dans une rue pav\u00e9e d'une ville historique, \u00e9clair\u00e9e par des lampadaires \u00e0 la lumi\u00e8re chaude. L'ambiance est nocturne et l\u00e9g\u00e8rement brumeuse, donnant une atmosph\u00e8re de conte ou d'aventure h\u00e9ro\u00efque.\" class=\"wp-image-686\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/cat_sdxl.png 768w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/cat_sdxl-300x300.png 300w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/cat_sdxl-150x150.png 150w\" sizes=\"(max-width: 768px) 100vw, 768px\" \/><figcaption class=\"wp-element-caption\">SDXL<\/figcaption><\/figure>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"1024\" data-id=\"683\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/12dk9z8wexrme0cnc67sephfy0.webp\" alt=\"Un chat roux et blanc, au regard fier et d\u00e9termin\u00e9, marche sur une rue pav\u00e9e en costume de noble militaire d'\u00e9poque. Il porte un habit bleu orn\u00e9 de dorures, un large col blanc pliss\u00e9 et une cape rouge flottant derri\u00e8re lui. Son chapeau bicorne, richement d\u00e9cor\u00e9, accentue son allure aristocratique. Dans une patte, il tient une \u00e9p\u00e9e finement ouvrag\u00e9e. L'arri\u00e8re-plan repr\u00e9sente une ville m\u00e9di\u00e9vale illumin\u00e9e, avec des tours de ch\u00e2teau et des \u00e9choppes anim\u00e9es aux lumi\u00e8res chaudes. Des personnages en habits d\u2019\u00e9poque s'affairent, ajoutant une atmosph\u00e8re vivante et f\u00e9\u00e9rique \u00e0 cette sc\u00e8ne au style r\u00e9aliste et enchanteur.\" class=\"wp-image-683\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/12dk9z8wexrme0cnc67sephfy0.webp 1024w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/12dk9z8wexrme0cnc67sephfy0-300x300.webp 300w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/12dk9z8wexrme0cnc67sephfy0-150x150.webp 150w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/12dk9z8wexrme0cnc67sephfy0-768x768.webp 768w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">SD 3.5<\/figcaption><\/figure>\n<\/figure>\n\n\n\n<p style=\"font-size:16px\">Les images ci-dessus illustrent l'\u00e9volution frappante des capacit\u00e9s des Diffuseurs : chaque image a \u00e9t\u00e9 g\u00e9n\u00e9r\u00e9e par l'une des versions de Stable Diffusion, de la plus ancienne, \u00e0 gauche, \u00e0 la plus r\u00e9cente, \u00e0 droite. Nous remarquons le gain de qualit\u00e9, d'esth\u00e9tique et de pr\u00e9cision impressionnant entre chaque version, plus particuli\u00e8rement pour le passage \u00e0 la version 3 (image de droite) qui est impressionnante de r\u00e9alisme.<\/p>\n\n\n\n<details class=\"wp-block-details is-layout-flow wp-block-details-is-layout-flow\" style=\"font-size:16px\"><summary>D\u00e9tails \u00e0 propos des Diffuseurs utilis\u00e9s<\/summary>\n<p><mark style=\"background-color:rgba(0, 0, 0, 0);color:#424141\" class=\"has-inline-color\">Les mod\u00e8les utilis\u00e9s pour g\u00e9n\u00e9rer les images ci-dessus sont des versions successives du mod\u00e8le pr\u00e9curseur Stable Diffusion disponibles sur la plate-forme <a href=\"https:\/\/replicate.com\/\">Replicate<\/a>. Le mod\u00e8le ayant g\u00e9n\u00e9r\u00e9 l'image de droite est une version am\u00e9lior\u00e9e et optimis\u00e9e du mod\u00e8le originelle Stable Diffusion se trouvant sur <a href=\"https:\/\/replicate.com\/stability-ai\/stable-diffusion\">cette page<\/a>. Le mod\u00e8le correspondant \u00e0 la seconde image (au centre) est <a href=\"https:\/\/stability.ai\/news\/sdxl-09-stable-diffusion\">Stable Diffusion XL<\/a>, disponible sur <a href=\"https:\/\/replicate.com\/stability-ai\/sdxl\">cette page<\/a>. Enfin le troisi\u00e8me mod\u00e8le, le plus r\u00e9cent, correspond \u00e0 <a href=\"https:\/\/stability.ai\/news\/introducing-stable-diffusion-3-5\">Stable Diffusion 3.5 - large<\/a>, la meilleure variante de la troisi\u00e8me mouture de Stable Diffusion.<\/mark><\/p>\n<\/details>\n\n\n\n<p style=\"font-size:16px\"><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-black-color\">Enfin, les Encodeurs n'ont pas \u00e9t\u00e9 en reste, et ont vu leurs performances d\u00e9coller et leurs co\u00fbts plonger, tout comme les LLM. L'exemple le plus frappant est la publication de <a href=\"https:\/\/doi.org\/10.48550\/arXiv.2412.13663\">ModernBERT<\/a>. Ce mod\u00e8le reprend exactement l'architecture du mod\u00e8le pr\u00e9curseur BERT, mais incorpore toutes les optimisations d\u00e9velopp\u00e9es depuis sa pr\u00e9sentation. R\u00e9sultat : une augmentation significative de tous les scores (jusqu'\u00e0 50 % de plus pour certaines m\u00e9triques) avec une efficacit\u00e9 et un co\u00fbt en ressources de calcul grandement diminu\u00e9.<\/mark><\/p>\n\n\n\n<h2 class=\"wp-block-heading has-text-color has-link-color has-large-font-size wp-elements-3ea3ab14f128bd3c9b3909683ac9e65e\" style=\"color:#040065;font-style:normal;font-weight:700\">Et maintenant ?<\/h2>\n\n\n\n<p style=\"font-size:16px\">Nous avons vu que la situation actuelle r\u00e9sulte d\u2019un long parcours ayant men\u00e9 au d\u00e9veloppement de mod\u00e8les extr\u00eamement puissants et intelligents, capables de g\u00e9n\u00e9rer du contenu pertinent, informatif, esth\u00e9tique et bien plus. La question que l\u2019on peut se poser d\u00e9sormais est la suivante : Et maintenant ? \ud83e\udd14<\/p>\n\n\n\n<p style=\"font-size:16px\">En effet, avoir des mod\u00e8les qui comprennent ce que l\u2019on dit et r\u00e9pondent, c\u2019est bien. Avoir des mod\u00e8les qui g\u00e9n\u00e8rent de belles images, c\u2019est top. Disposer de mod\u00e8les repr\u00e9sentant correctement le sens des textes et des images dans des vecteurs\u2026 pourquoi pas. Mais comment peut-on mettre tout cela en musique ? \u00c0 quoi tout cela peut-il servir ?<\/p>\n\n\n\n<p style=\"font-size:16px\">Pour r\u00e9pondre \u00e0 cette question, prenons un exemple que tout le monde conna\u00eet : <a href=\"https:\/\/chatgpt.com\/\">ChatGPT<\/a>. Comment cette application utilise-t-elle toutes les avanc\u00e9es technologiques dont nous avons parl\u00e9 pour fournir son service, <a href=\"https:\/\/a16z.com\/100-gen-ai-apps-3\/\">si appr\u00e9ci\u00e9 des internautes<\/a> ? C\u2019est ce que nous allons voir.<\/p>\n\n\n\n<details class=\"wp-block-details is-layout-flow wp-block-details-is-layout-flow\" style=\"font-size:16px\"><summary>Pr\u00e9caution<\/summary>\n<p><mark style=\"background-color:rgba(0, 0, 0, 0);color:#424141\" class=\"has-inline-color\">Nous pr\u00e9cisons que nous ne travaillons pas en collaboration avec OpenAI et n'avons pas eu acc\u00e8s au code source de l'application ChatGPT. Ce qui va suivre repose donc sur des suppositions \u00e9clair\u00e9es, fond\u00e9es sur notre connaissance du domaine et de ses usages. Nous d\u00e9crirons le fonctionnement \"g\u00e9n\u00e9rique\" d'une application de ce type, sans pr\u00e9tendre d\u00e9voiler toutes les optimisations ou subtilit\u00e9s sp\u00e9cifiques \u00e0 ChatGPT, que nous n'avons ni la pr\u00e9tention de conna\u00eetre, ni, peut-\u00eatre, de comprendre.<\/mark><\/p>\n<\/details>\n\n\n\n<p style=\"font-size:16px\">Tout d\u2019abord, <strong>ChatGPT n\u2019est pas une IA en soi<\/strong>. Contrairement \u00e0 ce que beaucoup pensent, ainsi qu\u2019\u00e0 l\u2019usage courant du terme, <strong>ChatGPT est une application<\/strong> (web, Android, iOS). Comme toute application, elle est cod\u00e9e dans un langage standard avec des instructions d\u00e9terministes et, \u00e0 proprement parler, <em>ne g\u00e9n\u00e8re aucun contenu par elle-m\u00eame<\/em>. Sa particularit\u00e9 r\u00e9side dans le fait qu\u2019elle repose sur des mod\u00e8les d\u2019IA g\u00e9n\u00e9rative pour fonctionner. Ce ne sont donc pas les lignes de code de l\u2019application qui produisent les r\u00e9ponses, mais une API \u2013 en l\u2019occurrence <a href=\"https:\/\/platform.openai.com\/\">celle d\u2019OpenAI<\/a> \u2013 qui expose ces mod\u00e8les et leur permet d\u2019\u00eatre sollicit\u00e9s \u00e0 la demande. En d\u2019autres termes, ChatGPT est un <em>wrapper<\/em> (<em>enveloppe logicielle<\/em>) permettant d\u2019interagir avec ces mod\u00e8les.<\/p>\n\n\n\n<details class=\"wp-block-details is-layout-flow wp-block-details-is-layout-flow\" style=\"font-size:16px\"><summary>API<\/summary>\n<p><mark style=\"background-color:rgba(0, 0, 0, 0);color:#424141\" class=\"has-inline-color\">Une <em>API<\/em> (<em>Interface de Programmation Applicative<\/em>) est un outil qui permet \u00e0 deux logiciels de communiquer entre eux. Plut\u00f4t que d\u2019int\u00e9grer directement un syst\u00e8me complexe dans une application, une API offre un moyen d\u2019y acc\u00e9der \u00e0 distance, en envoyant des requ\u00eates et en recevant des r\u00e9ponses. Une analogie courante est celle d\u2019un restaurant : l\u2019API joue le r\u00f4le du serveur, qui prend votre commande, la transmet \u00e0 la cuisine et vous rapporte le plat une fois pr\u00e9par\u00e9. De la m\u00eame mani\u00e8re, une API permet \u00e0 un logiciel d\u2019acc\u00e9der \u00e0 un service externe sans en conna\u00eetre tous les d\u00e9tails internes, simplifiant ainsi son d\u00e9veloppement et son int\u00e9gration.<\/mark><\/p>\n<\/details>\n\n\n\n<p style=\"font-size:16px\">Mais comment proc\u00e8de-t-elle alors ? Et bien elle combine les capacit\u00e9s de tous les types de mod\u00e8les (LLM, Diffuseur, Encodeur) que nous avons vu pr\u00e9c\u00e9demment pour fournir son service. D\u00e9taillons son fonctionnement en fonction des diff\u00e9rents types d\u2019usages auxquels elle r\u00e9pond.<\/p>\n\n\n\n<p style=\"font-size:16px\">L\u2019utilisation standard correspond \u00e0 une conversation avec l\u2019IA, soit un \u00e9change de textes. Dans ce cas, lorsque ChatGPT re\u00e7oit votre message, elle va l'envoyer au LLM h\u00e9berg\u00e9 par l\u2019API OpenAI (probablement <a href=\"https:\/\/openai.com\/index\/gpt-4o-mini-advancing-cost-efficient-intelligence\/\">GPT-4o-mini<\/a> si vous \u00eates sur la version gratuite, <a href=\"https:\/\/openai.com\/index\/gpt-4o-system-card\/\">GPT-4o<\/a> si vous \u00eates sur la version payante) qui va y r\u00e9pondre (nous verrons dans un article ult\u00e9rieur les d\u00e9tail de cette op\u00e9ration). ChatGPT va alors r\u00e9cup\u00e9rer la r\u00e9ponse et l\u2019afficher sur votre \u00e9cran.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"789\" height=\"188\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_llm_01.jpg\" alt=\"\" class=\"wp-image-687\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_llm_01.jpg 789w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_llm_01-300x71.jpg 300w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_llm_01-768x183.jpg 768w\" sizes=\"(max-width: 789px) 100vw, 789px\" \/><figcaption class=\"wp-element-caption\"><strong>Echanges de messages (utilisation classique).<\/strong><\/figcaption><\/figure><\/div>\n\n\n<p style=\"font-size:16px\">Le sch\u00e9ma ci-dessus illustre ce fonctionnement : l\u2019application re\u00e7oit votre requ\u00eate (fl\u00e8che marron), l\u2019envoie au LLM (fl\u00e8che bleue) puis vous renvoie la r\u00e9ponse de ce dernier (fl\u00e8che verte).<\/p>\n\n\n\n<p style=\"font-size:16px\">ChatGPT vous permet aussi de fournir des images dans vos conversations. En effet, les mod\u00e8les GPT-4o sont multimodaux et peuvent \u201ccomprendre\u201d des images. Dans ce cas, le principe est similaire \u00e0 celui du cas standard, et l\u2019image que fournissez est transmise avec votre requ\u00eate textuelle au LLM (cf. le sch\u00e9ma ci-dessous).<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"792\" height=\"264\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_llm_02.jpg\" alt=\"\" class=\"wp-image-688\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_llm_02.jpg 792w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_llm_02-300x100.jpg 300w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_llm_02-768x256.jpg 768w\" sizes=\"(max-width: 792px) 100vw, 792px\" \/><figcaption class=\"wp-element-caption\"><strong>Utilisation des capacit\u00e9s de \"Vision\" du LLM.<\/strong><\/figcaption><\/figure><\/div>\n\n\n<p style=\"font-size:16px\">ChatGPT propose aussi des services de cr\u00e9ation d\u2019image : vous pouvez lui demander de g\u00e9n\u00e9rer l\u2019image de votre choix, et, au bout d\u2019un moment, vous allez recevoir une image correspondant (peu ou prou) \u00e0 ce que vous avez d\u00e9crit. Dans ce cas, le processus suivi, un peu diff\u00e9rent, est d\u00e9taill\u00e9 ci-dessous en conjonction au sch\u00e9ma qui suit :<\/p>\n\n\n\n<ul>\n<li style=\"font-size:16px\"><strong>Requ\u00eate LLM (fl\u00e8che bleue)<\/strong> : l'application va toujours envoyer votre requ\u00eate au LLM, qui va comprendre que vous souhaitez g\u00e9n\u00e9rer une image. Il va alors renvoyer une demande d\u2019utilisation d\u2019un Diffuseur avec un <em>prompt<\/em> qu\u2019il aura d\u00e9fini en fonction de votre demande.<\/li>\n\n\n\n<li style=\"font-size:16px\"><strong>Requ\u00eate Diffuseur (fl\u00e8che violette)<\/strong> : l\u2019application va alors appeler via l\u2019API son Diffuseur (<a href=\"https:\/\/openai.com\/index\/dall-e-3-system-card\/\">DALL-E 3<\/a> en l\u2019occurrence) avec le <em>prompt<\/em> qu\u2019il aura re\u00e7u du LLM. Le Diffuseur va g\u00e9n\u00e9rer l\u2019image et la renvoyer \u00e0 l\u2019application, qui l\u2019affichera sur le <em>chat<\/em>.<\/li>\n<\/ul>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"792\" height=\"302\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_chatgpt_03-1.jpg\" alt=\"\" class=\"wp-image-690\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_chatgpt_03-1.jpg 792w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_chatgpt_03-1-300x114.jpg 300w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_chatgpt_03-1-768x293.jpg 768w\" sizes=\"(max-width: 792px) 100vw, 792px\" \/><figcaption class=\"wp-element-caption\"><strong>G\u00e9n\u00e9ration d'une image.<\/strong><\/figcaption><\/figure><\/div>\n\n\n<details class=\"wp-block-details is-layout-flow wp-block-details-is-layout-flow\" style=\"font-size:16px\"><summary>\u00c0 noter<\/summary>\n<p><mark style=\"background-color:rgba(0, 0, 0, 0);color:#424141\" class=\"has-inline-color\">Depuis peu, OpenAI a fait <a href=\"https:\/\/openai.com\/index\/introducing-4o-image-generation\/\">\u00e9voluer son service de g\u00e9n\u00e9ration d\u2019images<\/a>. La fonctionnalit\u00e9, autrefois motoris\u00e9e par DALL-E 3, repose d\u00e9sormais sur une d\u00e9clinaison de GPT-4o sp\u00e9cialis\u00e9e dans la cr\u00e9ation d\u2019images. Ce nouveau mod\u00e8le am\u00e9liore nettement la qualit\u00e9 des r\u00e9sultats et pourrait introduire quelques diff\u00e9rences dans le processus interne. Toutefois, le principe g\u00e9n\u00e9ral pr\u00e9sent\u00e9 ici reste pleinement valable.<\/mark><\/p>\n<\/details>\n\n\n\n<p style=\"font-size:16px\">Enfin, ChatGPT vous permet aussi de fournir des documents que l\u2019IA pourra consulter pour mieux vous r\u00e9pondre. Ce cas-l\u00e0 n\u00e9cessite de faire appel \u00e0 un Encodeur, qui va repr\u00e9senter le document fourni via un ensemble de vecteurs latents associ\u00e9s \u00e0 chacune de ses parties. L\u2019application pourra alors utiliser ces vecteurs pour d\u00e9terminer les parties pertinentes du document \u00e0 fournir au LLM pour sa r\u00e9ponse.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"793\" height=\"339\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_chatgpt_04.jpg\" alt=\"\" class=\"wp-image-691\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_chatgpt_04.jpg 793w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_chatgpt_04-300x128.jpg 300w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2025\/03\/schema_chatgpt_04-768x328.jpg 768w\" sizes=\"(max-width: 793px) 100vw, 793px\" \/><figcaption class=\"wp-element-caption\"><strong>Utilisation de documents comme contexte.<\/strong><\/figcaption><\/figure><\/div>\n\n\n<p style=\"font-size:16px\">Le sch\u00e9ma ci-dessus illustre ce proc\u00e9d\u00e9 : l\u2019application va faire appel \u00e0 un outil de recherche (fl\u00e8che bleue) qui va s\u2019occuper de r\u00e9cup\u00e9rer le contenu du document et de l\u2019encoder, gr\u00e2ce \u00e0 <a href=\"https:\/\/openai.com\/index\/introducing-text-and-code-embeddings\/\">l\u2019Encodeur de l\u2019API<\/a>. Ce moteur de recherche va ensuite pouvoir fournir le contenu pertinent du document \u00e0 chacune de vos requ\u00eates, que l\u2019application pourra joindre \u00e0 cette derni\u00e8re et envoyer au LLM (fl\u00e8che violette), qui aura donc l\u2019information n\u00e9cessaire pour vous r\u00e9pondre.<\/p>\n\n\n\n<p style=\"font-size:16px\">Le processus est similaire lorsque vous demandez \u00e0 ChatGPT d\u2019appuyer ses r\u00e9ponses via une recherche internet : au lieu de rechercher au sein des documents que vous avez fourni, le moteur de recherche va effectuer une recherche internet et ajouter le contenu pertinent par rapport \u00e0 votre requ\u00eate \u00e0 ce qu\u2019il envoie au LLM.<\/p>\n\n\n\n<p style=\"font-size:16px\">Bien entendu, ce que nous avons d\u00e9crit ici pour ChatGPT s\u2019applique aussi \u00e0 tout agent conversationnel fournissant plusieurs types de services d\u2019IA G\u00e9n\u00e9rative. <a href=\"https:\/\/chat.mistral.ai\/chat\">Le Chat<\/a> par exemple, d\u00e9velopp\u00e9 par l\u2019entreprise (fran\u00e7aise) <a href=\"https:\/\/mistral.ai\/\">Mistral AI<\/a>, adopte un fonctionnement similaire, en utilisant ses propre mod\u00e8les : <a href=\"https:\/\/mistral.ai\/news\/mistral-large-2407\">Mistral-Large<\/a> ou <a href=\"https:\/\/mistral.ai\/news\/mistral-small-3\">Mistral-Small<\/a> comme LLM, <a href=\"https:\/\/docs.mistral.ai\/capabilities\/embeddings\/\">Mistral-Embed<\/a> comme Encodeur et les mod\u00e8les FLUX comme Diffuseurs (via un <a href=\"https:\/\/help.mistral.ai\/en\/articles\/268651-image-generation\">partenariat avec Black Forest Lab<\/a>, les propri\u00e9taires de ces derniers).<\/p>\n\n\n\n<h2 class=\"wp-block-heading has-text-color has-link-color has-large-font-size wp-elements-050000d313140c1cbdc92427b0da0905\" style=\"color:#040065;font-style:normal;font-weight:700\">Conclusion<\/h2>\n\n\n\n<p style=\"font-size:16px\">Nous avons effectu\u00e9 ensemble un petit panorama de ce que sont les IA G\u00e9n\u00e9ratives. Nous avons d\u00e9fini les trois grands mod\u00e8les que nous allons consid\u00e9rer dans cette s\u00e9rie, \u00e0 savoir les LLMs (produisant du texte), les Diffuseurs (produisant des Images) et les Encodeurs (produisant des repr\u00e9sentations vectorielles). D\u2019autres types de mod\u00e8les, produisant d\u2019autres types de contenu (vid\u00e9os, mod\u00e8les 3D, sons, <a href=\"https:\/\/www.amazon.science\/blog\/adapting-language-model-architectures-for-time-series-forecasting\">s\u00e9ries temporelles<\/a>, etc\u2026) existent et repr\u00e9sentent de nombreux cas d\u2019usages int\u00e9ressants, mais nous allons les laisser de c\u00f4t\u00e9 pour le moment.<\/p>\n\n\n\n<p style=\"font-size:16px\">Nous avons ensuite effectu\u00e9 un historique d\u00e9crivant les diff\u00e9rents jalons scientifiques et technologiques qui ont permis l\u2019av\u00e8nement des IAs G\u00e9n\u00e9ratives, et nous avons vu que cet av\u00e8nement correspond \u00e0 un long processus it\u00e9ratif plut\u00f4t qu\u2019une d\u00e9couverte spontan\u00e9e. Nous avons ensuite discut\u00e9 de l\u2019essor des performances des mod\u00e8les de r\u00e9f\u00e9rence, et notamment de la fa\u00e7on dont les capacit\u00e9s de ces derniers ont d\u00e9coll\u00e9 en quelques ann\u00e9es, combin\u00e9e \u00e0 une v\u00e9ritable chute des prix et des co\u00fbts d\u2019utilisation.<\/p>\n\n\n\n<p style=\"font-size:16px\">Enfin, nous avons fourni un exemple concret en d\u00e9taillant le fonctionnement de l\u2019application ChatGPT, d\u00e9sormais connue de tous. Nous avons expliqu\u00e9 comment cette application, qui n\u2019est pas un mod\u00e8le d\u2019IA en soi, utilise les capacit\u00e9s de tous ces diff\u00e9rents mod\u00e8les (LLM, Diffuseur, Encodeur) pour fournir son service si appr\u00e9ci\u00e9.<\/p>\n\n\n\n<p style=\"font-size:16px\">Cet article est un article introductif dans le cadre d\u2019une s\u00e9rie de publications autour de l\u2019IA G\u00e9n\u00e9rative. Nous allons nous int\u00e9resser plus en d\u00e9tail aux fonctionnements de tous ces mod\u00e8les dans des publications ult\u00e9rieures, et fournir quelques cas d\u2019applications et d\u2019usages concrets. Ainsi, restez \u00e0 l\u2019\u00e9coute, car ce n\u2019est que le commencement !<\/p>\n<\/div>","protected":false},"excerpt":{"rendered":"<p>L\u2019IA g\u00e9n\u00e9rative a r\u00e9volutionn\u00e9 notre rapport \u00e0 la cr\u00e9ation num\u00e9rique : textes, images, musiques ou encore mod\u00e8les 3D, elle est d\u00e9sormais capable de produire du contenu in\u00e9dit en quelques secondes. Mais comment fonctionnent ces mod\u00e8les ? En quoi diff\u00e8rent-ils des approches plus classiques de l\u2019intelligence artificielle ? Cet article introductif explore les trois grandes cat\u00e9gories de l\u2019IA g\u00e9n\u00e9rative \u2013 mod\u00e8les de langage (LLMs), diffuseurs d\u2019images et encodeurs s\u00e9mantiques \u2013 en retra\u00e7ant leur \u00e9volution et leurs principes fondamentaux. Nous verrons \u00e9galement comment ces mod\u00e8les sont combin\u00e9s dans des applications embl\u00e9matiques comme ChatGPT. Un panorama essentiel pour comprendre les fondements de cette r\u00e9volution technologique.<\/p>\n","protected":false},"author":15,"featured_media":703,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[77,78],"tags":[4,45,3,23,79,12,50],"_links":{"self":[{"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/post\/668"}],"collection":[{"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/post"}],"about":[{"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/users\/15"}],"replies":[{"embeddable":true,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/comments?post=668"}],"version-history":[{"count":11,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/post\/668\/revisions"}],"predecessor-version":[{"id":713,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/post\/668\/revisions\/713"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/media\/703"}],"wp:attachment":[{"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/media?parent=668"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/categories?post=668"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/tags?post=668"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}