{"id":568,"date":"2023-10-10T16:22:43","date_gmt":"2023-10-10T14:22:43","guid":{"rendered":"https:\/\/www.claravista.ai\/blog\/?p=568"},"modified":"2025-11-02T14:17:43","modified_gmt":"2025-11-02T13:17:43","slug":"et-si-on-laissait-lia-faire-notre-travail","status":"publish","type":"post","link":"https:\/\/www.claravista.ai\/blog\/2023\/10\/10\/et-si-on-laissait-lia-faire-notre-travail\/","title":{"rendered":"Et si on laissait l&rsquo;IA faire notre travail ?"},"content":{"rendered":"<div class=\"pt-1\"><strong><i>\u00c9tude : Automatisation de l\u2019analyse de KPIs, un essai avec Chat GPT d\u2019Open AI.\u00a0<\/i><\/strong>\n\n<em>Par Ahmed-Amine Homman, Research Project Manager chez ClaraVista<\/em>\n\nTitulaire d'un doctorat en Math\u00e9matiques Appliqu\u00e9es obtenue \u00e0 l'Ecole des Ponts ParisTexh (Universit\u00e9 Paris-Est) et ancien \u00e9l\u00e8ve de l'Ecole Normale Sup\u00e9rieure de Lyon, Ahmed-Amine coordonne l'effort de R&amp;D de l'entreprise depuis 4 ans. Dans le cadre de ses missions, il a \u00e9t\u00e9 amen\u00e9 r\u00e9cemment \u00e0 investiguer les capacit\u00e9s des grands mod\u00e8les de langages tels que chatGPT, Bard ou LLama afin d'\u00e9tudier leurs \u00e9ventuelles applications dans le domaine du retail et du marketing. Il partage avec vous quelques-unes de ses trouvailles dans cet article.\n<h2><span style=\"color: #ff6666;\"><b>Introduction<\/b><\/span><\/h2>\nLe 30 novembre 2022, OpenAI a d\u00e9voil\u00e9 <a href=\"https:\/\/openai.com\/blog\/chatgpt\">chatGPT<\/a>, sa nouvelle application bas\u00e9e sur GPT-3.5, un agent conversationnel surpuissant capable de fournir des r\u00e9ponses pr\u00e9cises et d\u00e9taill\u00e9es \u00e0 toutes sortes de demandes, disponible \u00e0 l'\u00e9poque uniquement sur le web. Quatre mois plus tard, OpenAI a lanc\u00e9 <a href=\"https:\/\/openai.com\/gpt-4\">GPT-4<\/a>, une version encore plus puissante, comp\u00e9tente et \u00e9rudite de son agent conversationnel.\n\nDepuis lors, une v\u00e9ritable course \u00e0 l'intelligence artificielle g\u00e9n\u00e9rative s'est enclench\u00e9e, avec les g\u00e9ants du secteur tels qu'Amazon, Google, Microsoft, Meta, et d'autres, qui ont lanc\u00e9 leurs propres concurrents \u00e0 chatGPT (comme <a href=\"https:\/\/bard.google.com\/chat\">Bard <\/a>chez Google), des outils r\u00e9volutionnaires bas\u00e9s sur les mod\u00e8les GPT d'OpenAI (comme <a href=\"https:\/\/blogs.microsoft.com\/blog\/2023\/09\/21\/announcing-microsoft-copilot-your-everyday-ai-companion\/\">Copilot<\/a> pour Microsoft et <a href=\"https:\/\/github.com\/features\/copilot\">GitHub Copilot<\/a> pour GitHub), ou m\u00eame des mod\u00e8les concurrents (comme Llama et <a href=\"https:\/\/about.fb.com\/news\/2023\/07\/llama-2\/\">LLama-2<\/a> chez Meta), ainsi que des produits bas\u00e9s sur ces mod\u00e8les concurrents (comme <a href=\"https:\/\/aws.amazon.com\/fr\/codewhisperer\/\">CodeWhisperer<\/a> pour l'assistance \u00e0 la programmation chez Amazon).\n\nDe plus, des acteurs moins connus du domaine ont pu profiter de cette soudaine popularit\u00e9 en proposant leurs propres mod\u00e8les concurrents \u00e0 ceux de OpenAI et parfois des applications alternatives \u00e0 chatGPT. Parmi ces nouveaux produits, citons <a href=\"https:\/\/claude.ai\/\">Claude<\/a>, d\u00e9velopp\u00e9 par Anthropic, une entreprise dans laquelle Amazon a r\u00e9cemment <a href=\"https:\/\/www.aboutamazon.com\/news\/company-news\/amazon-aws-anthropic-ai\">investi massivement<\/a>, qui repr\u00e9sente une alternative s\u00e9rieuse \u00e0 chatGPT. <a href=\"https:\/\/cohere.com\/\">Cohere<\/a>, quant \u00e0 elle, propose des mod\u00e8les g\u00e9n\u00e9ratifs de langage puissants via <a href=\"https:\/\/docs.cohere.com\/docs\">une API concurrente \u00e0 celle d'OpenAI<\/a>. De nombreux mod\u00e8les open-source rivalisent \u00e9galement en termes de performances, tels que <a href=\"https:\/\/huggingface.co\/tiiuae\">les mod\u00e8les Falcon<\/a> du <a href=\"https:\/\/www.tii.ae\/\">Technology Innovation Institute<\/a>, ou plus r\u00e9cemment <a href=\"https:\/\/huggingface.co\/mistralai\">les mod\u00e8les Mistral<\/a> de l'entreprise fran\u00e7aise Mistral AI, qui a r\u00e9cemment <a href=\"https:\/\/www.usine-digitale.fr\/article\/la-start-up-francaise-mistral-ai-leve-105-millions-d-euros-pour-developper-des-modeles-d-ia-generative.N2142627\">lev\u00e9 des fonds en juin 2023<\/a> et d\u00e9voile d\u00e9j\u00e0 des mod\u00e8les tr\u00e8s performants.\n\nDans cet environnement en constante \u00e9volution, le secteur du conseil n'est pas rest\u00e9 inactif. Les grands cabinets de conseil ont rapidement r\u00e9agi en annon\u00e7ant des partenariats avec les leaders du secteur. Par exemple, le <a href=\"https:\/\/www.anthropic.com\/index\/anthropic-bcg\">BCG s'est associ\u00e9 \u00e0 Anthropic<\/a> pour promouvoir l'agent conversationnel Claude afin d'aider ses clients. McKinsey, de son c\u00f4t\u00e9, <a href=\"https:\/\/www.mckinsey.com\/about-us\/new-at-mckinsey-blog\/mckinsey-and-cohere-collaborate-to-transform-clients-with-enterprise-generative-ai\">a choisi Cohere comme partenaire<\/a> pour ce type de services. Enfin, <a href=\"https:\/\/www.bain.com\/vector-digital\/partnerships-alliance-ecosystem\/openai-alliance\/\">le cabinet Bain a conclu une alliance avec OpenAI<\/a> pour renforcer son offre de services li\u00e9s aux intelligences artificielles g\u00e9n\u00e9ratives.\n\nMais les grands cabinets n'ont pas \u00e9t\u00e9 les seuls \u00e0 r\u00e9agir. \u00c0 une \u00e9chelle plus modeste, <a href=\"https:\/\/www.claravista.ai\/\">ClaraVista<\/a> a \u00e9galement investi dans cette technologie. Elle m\u00e8ne des projets de recherche visant \u00e0 explorer les capacit\u00e9s, les forces, les faiblesses et les diff\u00e9rents cas d'utilisation potentiels de ces mod\u00e8les. Dans cet article, nous vous pr\u00e9sentons l'un de ces projets de recherche.\n<h2><span style=\"color: #ff6666;\"><b>Contexte<\/b><\/span><\/h2>\nDans le cadre de notre exploration des outils d'IA g\u00e9n\u00e9rative, en particulier ceux capables de g\u00e9n\u00e9rer du texte en langage naturel, notre int\u00e9r\u00eat s'est port\u00e9 sur l'automatisation des analyses quantitatives des donn\u00e9es CRM, en se concentrant plus pr\u00e9cis\u00e9ment sur la g\u00e9n\u00e9ration des \"messages\". Ces messages sont r\u00e9dig\u00e9s en langage naturel et d\u00e9crivent les points forts et\/ou marquants issus de diverses tables d'indicateurs que nous produisons pour nos analyses de profils clients.\n\nEn effet, lorsque nous produisons ce genre d\u2019analyse, nous g\u00e9n\u00e9rons souvent de nombreuses tables, partageant une structure assez similaire pour la plupart. Chacune de ces tables doit \u00eatre analys\u00e9e par l'\u0153il expert de nos analystes pour \u00eatre synth\u00e9tis\u00e9es en quelques phrases (lesdits messages) d\u00e9crivant les points forts et marquants pr\u00e9sents dans cette derni\u00e8re. Tout ceci forme donc un processus r\u00e9p\u00e9titif, chronophage mais indispensable, que l\u2019on pourrait du coup grandement optimiser avec l\u2019IA (du moins en th\u00e9orie). Nous avons donc d\u00e9cid\u00e9 de tester les capacit\u00e9s des mod\u00e8les de langage les plus populaires, notamment les mod\u00e8les GPT d'OpenAI, pour r\u00e9diger ces messages en analysant les donn\u00e9es quantitatives pr\u00e9sentes dans les tableaux de bord.\n\nPour \u00e9valuer la faisabilit\u00e9 de cette application, nous avons cr\u00e9\u00e9 un ensemble de tableaux de bord marketing fictifs que nous avons soumis \u00e0 l'analyse des IA. Ensuite, nous avons \u00e9valu\u00e9 la qualit\u00e9 des r\u00e9ponses fournies. \u00c9tant donn\u00e9 que nous contr\u00f4lions la g\u00e9n\u00e9ration de ces tableaux, nous y avons incorpor\u00e9 des ph\u00e9nom\u00e8nes plus ou moins \u00e9vidents, c'est-\u00e0-dire des indicateurs pr\u00e9sentant des ph\u00e9nom\u00e8nes marketing plus ou moins marqu\u00e9s, pour voir si les IA \u00e9taient en mesure de tirer les conclusions que nous souhaitions.\n\nDans la suite de cet article, nous commencerons par d\u00e9crire la proc\u00e9dure exp\u00e9rimentale suivie, en d\u00e9crivant les tableaux de bord fictifs que nous avons cr\u00e9\u00e9s ainsi que le param\u00e9trage des mod\u00e8les utilis\u00e9s lors des exp\u00e9rimentations. Ensuite, nous pr\u00e9senterons les analyses r\u00e9alis\u00e9es par les mod\u00e8les GPT selon les diff\u00e9rents sc\u00e9narios d\u00e9taill\u00e9s dans la section pr\u00e9c\u00e9dente en examinant chaque observation g\u00e9n\u00e9r\u00e9e, en nous assurant qu'elle est \u00e0 la fois exacte et pertinente.\n\nEnfin, nous pr\u00e9cisons que toutes les r\u00e9ponses d\u00e9crites dans cet article ont \u00e9t\u00e9 obtenues via <a href=\"https:\/\/platform.openai.com\">l\u2019API OpenA<\/a>I et non pas via l\u2019application <a href=\"https:\/\/chat.openai.com\/\">chatGPT<\/a>. Les deux solutions sont s\u0153urs dans leur fonction : elles permettent toutes les deux aux utilisateurs d'interagir avec les mod\u00e8les de langages GPT\u00a0 d\u2019OpenAI. Cependant, la premi\u00e8re permet d\u2019automatiser cette interaction, ce qui est plus pratique au vu de la quantit\u00e9 de <i>prompts<\/i> que nous devions r\u00e9diger pour les besoins de l\u2019\u00e9tude. Elle permet aussi de contr\u00f4ler plus facilement le param\u00e9trage des mod\u00e8les de langage. Ces deux facteurs font que nous avons pr\u00e9f\u00e9r\u00e9 l\u2019API \u00e0 chatGPT. Cependant, nous pensons que les r\u00e9sultats pr\u00e9sent\u00e9s ci-apr\u00e8s auraient \u00e9t\u00e9 qualitativement semblables, car les mod\u00e8les sous-jacents sont les m\u00eames.\n<h2><span style=\"color: #ff6666;\"><b>Proc\u00e9dure exp\u00e9rimentale<\/b><\/span><\/h2>\n<table style=\"height: 139px; border-color: #000000;\" width=\"617\">\n<tbody>\n<tr>\n<td style=\"border-color: #000000; background-color: #000000;\"><span style=\"color: #ffffff;\">Remarques :<\/span><\/td>\n<\/tr>\n<tr>\n<td style=\"border-color: #000000;\">Dans cette section, nous allons d\u00e9noter le mod\u00e8le GPT choisi par <i>GPTx<\/i> par commodit\u00e9. En effet, les concepts et \u00e9l\u00e9ments d\u00e9crits dans cette section s\u2019appliquent de la m\u00eame fa\u00e7on quelque soit la version du mod\u00e8le GPT que l\u2019on utilise.<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\nLors de cette exp\u00e9rience, nous souhaitons \u00e9valuer la capacit\u00e9 de <i>GPTx<\/i> \u00e0 fournir les \u00e9l\u00e9ments suivants :\n<ul>\n \t<li style=\"font-weight: 400;\" aria-level=\"1\"><i>Analyses qualitatives de donn\u00e9es<\/i> : \u00e0 partir d\u2019un ensemble d\u2019indicateurs qu\u2019on lui donne en entr\u00e9e, on souhaite \u00e9valuer la capacit\u00e9 du mod\u00e8le \u00e0 fournir des analyses qualitatives de ces derniers et donc \u00e0 \u00e9crire des messages pertinents.<\/li>\n \t<li style=\"font-weight: 400;\" aria-level=\"1\"><i>Recommandations strat\u00e9giques<\/i> : \u00e0 partir des donn\u00e9es et\/ou des messages, on souhaite \u00e9valuer si le mod\u00e8le est capable de fournir des recommandations strat\u00e9giques pertinentes.<\/li>\n<\/ul>\nAinsi, nous avons con\u00e7u un proc\u00e9d\u00e9 o\u00f9 <i>GPTx <\/i>doit fournir une analyse qualitative des donn\u00e9es qu\u2019il re\u00e7oit, compl\u00e9ment\u00e9e d\u2019un descriptif de ces donn\u00e9es (pour lui fournir du contexte sur les indicateurs qu\u2019il doit analyser). Ensuite, une fois sa r\u00e9ponse fournie, il doit fournir une recommandation strat\u00e9gique, <i>\u00e0 partir de sa propre r\u00e9ponse<\/i> (i.e. son analyse qualitative) et d\u2019informations de contexte \u00e0 propos de l\u2019entreprise et du secteur dans laquelle cette derni\u00e8re op\u00e8re. Ce proc\u00e9d\u00e9 est d\u00e9crit par le sch\u00e9ma suivant :\n\n<img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-medium_large wp-image-611\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Graph-1-v2-768x577.png\" alt=\"\" width=\"768\" height=\"577\" srcset=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Graph-1-v2-768x577.png 768w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Graph-1-v2-300x225.png 300w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Graph-1-v2-1024x770.png 1024w, https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Graph-1-v2.png 1570w\" sizes=\"(max-width: 768px) 100vw, 768px\" \/>\n\nAinsi, \u00e0 partir d\u2019un tableau de bord et d'informations de contexte sur ce dernier ainsi que l\u2019entreprise pour laquelle il a \u00e9t\u00e9 r\u00e9alis\u00e9, nous allons proc\u00e9der \u00e0 une \u00e9valuation compl\u00e8te de la capacit\u00e9 de <i>GPTx <\/i>\u00e0 livrer des messages et des recommandations \u00e0 l\u2019entreprise qui a command\u00e9 le tableau de bord.\n\nAinsi, nous avons con\u00e7u plusieurs sc\u00e9narios et avons construit les donn\u00e9es en accord avec ce dernier. Chaque sc\u00e9nario repr\u00e9sente une \u00e9tude marketing fictive men\u00e9e par une entreprise donn\u00e9e sur plusieurs pays dans lesquels elle est repr\u00e9sent\u00e9e. En fonction des sc\u00e9narios, les pays consid\u00e9r\u00e9s par l\u2019\u00e9tude exhibent des performances diff\u00e9rentes, que nous demandons \u00e0 <i>GPTx<\/i> de d\u00e9crire (ce qui correspond \u00e0 la partie \u201canalyse quantitative\u201d du sch\u00e9ma ci-dessus). Ensuite, nous demandons aux mod\u00e8les de nous recommander un pays dans lequel l\u2019entreprise devrait se renforcer (partie \u201crecommandation strat\u00e9gique\u201d ci-dessus). Nous \u00e9valuons alors si <i>GPTx<\/i> arrive \u00e0 bien identifier les ph\u00e9nom\u00e8nes ins\u00e9r\u00e9s dans les donn\u00e9es et donc \u00e0 choisir le (ou l\u2019un des) bon(s) pays dans lequel se renforcer.\n\nNous avons ensuite mis en \u0153uvre une \u00e9tape de <i>prompt engineering<\/i> afin d\u2019optimiser les requ\u00eates (<i>prompts<\/i>) correspondant aux deux questions d\u00e9crites ci-dessus. Suite \u00e0 cet \u00e9tape, les deux requ\u00eates s\u00e9lectionn\u00e9es sont pr\u00e9sent\u00e9es ci-apr\u00e8s :\n<table style=\"height: 42px; background-color: #000000; width: 661px;\">\n<tbody>\n<tr style=\"height: 104px;\">\n<td style=\"width: 651px; height: 104px;\"><span style=\"color: #00ff00;\">1. What are the insights you can derive from the provided data? Try to report only the noteworthy facts you observe, and provide a short answer (several lines top).<\/span><\/td>\n<\/tr>\n<tr style=\"height: 33.2188px;\">\n<td style=\"width: 651px; height: 33.2188px;\"><span style=\"color: #00ff00;\">2. Based on the observations and the global context, what is the best country in which a new store should be opened?<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h3><\/h3>\n<h3><b>Donn\u00e9es<\/b><\/h3>\nAfin de v\u00e9rifier les dires de <i>GPTx<\/i>, et donc v\u00e9rifier si ce dernier est capable de fournir \u00e0 la fois des analyses quantitatives et des recommandations strat\u00e9giques pertinentes, il est n\u00e9cessaire de fournir une attention particuli\u00e8re aux donn\u00e9es g\u00e9n\u00e9r\u00e9es pour l\u2019exp\u00e9rience. En effet, il est important de fournir des donn\u00e9es repr\u00e9sentant un ph\u00e9nom\u00e8ne pr\u00e9cis et identifiable, afin de v\u00e9rifier si <i>GPTx <\/i>le d\u00e9tecte et s\u2019il r\u00e9agit correctement, i.e. en fournissant les bons messages et les bonnes recommandations.\n\nLes tableaux de bords que nous avons g\u00e9n\u00e9r\u00e9 pour cette exp\u00e9rience correspondent \u00e0 des tables contenant un ensemble d\u2019indicateurs classiques chez ClaraVista, d\u00e9crivant le comportement d\u2019achat d\u2019une population de client, la d\u00e9mographie de la population, le recrutement (i.e. le comportement des nouveaux clients sur la p\u00e9riode) et le r\u00e9achat des clients formant la population. Ces indicateurs sont d\u00e9crits dans la table suivante :\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Tableau-1.png\" alt=\"\" width=\"612\" height=\"552\" \/>\n\nAinsi, chaque sc\u00e9nario aura son propre tableau de bord, repr\u00e9sent\u00e9 par une table contenant des valeurs pour les indicateurs ci-dessus. Les valeurs seront donc choisies en fonction du sc\u00e9nario, pour refl\u00e9ter la situation d\u00e9crite par ce dernier.\n<h3><b>Un premier sc\u00e9nario simple : \u201cluxury\u201d<\/b><\/h3>\nDans ce sc\u00e9nario fictif, nous plongeons au c\u0153ur d'une entreprise sp\u00e9cialis\u00e9e dans la vente de produits de luxe pr\u00e9sente dans trois pays distincts : CountryA, CountryB et CountryC. Chacun de ces pays se caract\u00e9rise par un niveau de d\u00e9veloppement bien distinct. CountryA se distingue par une client\u00e8le ais\u00e9e, qui effectue des achats fr\u00e9quents et g\u00e9n\u00e9reux. \u00c0 l'inverse, CountryB abrite des clients moins fortun\u00e9s, dont les achats sont plus modestes et moins fr\u00e9quents. CountryC se situe quant \u00e0 lui quelque part entre les deux extr\u00eames.\n\nPour \u00e9valuer ces pays, nous avons \u00e9labor\u00e9 des indicateurs refl\u00e9tant ces diff\u00e9rences marqu\u00e9es. CountryA se distingue par des paniers moyens, des fr\u00e9quences d'achat et des prix moyens tr\u00e8s \u00e9lev\u00e9s. En revanche, CountryB affiche des indicateurs nettement plus bas, tandis que CountryC se situe dans une fourchette interm\u00e9diaire. Nous avons \u00e9galement suppos\u00e9 que les clients de CountryA sont en g\u00e9n\u00e9ral plus \u00e2g\u00e9s, car ils ont d\u00e9j\u00e0 \u00e9tabli leur situation financi\u00e8re. En dehors de ces sp\u00e9cificit\u00e9s, les autres indicateurs sont relativement similaires d'un pays \u00e0 l'autre.\n\nDans cette analyse, nous attendons donc que <i>GPTx<\/i> identifie les performances exceptionnelles de CountryA par rapport aux autres pays. En cons\u00e9quence, nous nous attendons \u00e9galement \u00e0 ce qu'il recommande l'ouverture d'un magasin dans CountryA.\n\nLes indicateurs que nous allons fournir \u00e0 <i>GPTx <\/i>pour ce sc\u00e9nario sont donn\u00e9s par la table suivante :\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Tableau-2.png\" alt=\"\" width=\"607\" height=\"415\" \/>\n\nLes indicateurs ci-dessus indiquent donc bien un CountryA peupl\u00e9 de clients plus fortun\u00e9s, fr\u00e9quents, \u00e2g\u00e9s et renseignant plus leurs \u00e2ges que les autres. En revanche, les autres indicateurs ne permettent pas de discriminer significativement les trois pays (exemple : le genre et le taux de croissance, de <i>churn<\/i> et de recrutement).\n<h3><b>Un deuxi\u00e8me sc\u00e9nario plus complexe : \u201cgeopolitics\u201d<\/b><\/h3>\nDans ce sc\u00e9nario, nous nous aventurons dans des terres un peu plus exotiques, et nous consid\u00e9rons le cas d\u2019une entreprise sp\u00e9cialis\u00e9e dans la vente de potions de soins et d'onguents, op\u00e9rant dans diverses r\u00e9gions de la <a href=\"https:\/\/fr.wikipedia.org\/wiki\/Terre_du_Milieu\">Terre du Milieu<\/a>, le monde imaginaire cr\u00e9\u00e9 par l'\u00e9minent \u00e9crivain J. R. R. Tolkien. Ces r\u00e9gions incluent le Gondor, le Rohan, le Mordor et la Comt\u00e9. Nous posons l'hypoth\u00e8se que cette entreprise a \u00e9tabli sa pr\u00e9sence \u00e0 la fois parmi les Humains (au Gondor et au Rohan), les Orcs (au Mordor) et les Hobbits (\u00e0 la Comt\u00e9), et que toutes ces factions sont ouvertes au commerce avec elle.\n\nNous consid\u00e9rons \u00e9galement la situation o\u00f9 le Rohan et le Mordor sont engag\u00e9s dans un conflit arm\u00e9, tandis que le Gondor demeure neutre. Il est important de noter que le Gondor maintient des liens diplomatiques avec le Rohan, ce qui pourrait le conduire \u00e0 se joindre \u00e0 ce dernier dans son conflit contre le Mordor \u00e0 l'avenir. Enfin, nous supposons que la Comt\u00e9 adopte une politique d'isolement strict et ne prendra pas part au conflit de quelque mani\u00e8re que ce soit.\n\nEn ce qui concerne les indicateurs, nous d\u00e9finissons ces derniers de mani\u00e8re \u00e0 repr\u00e9senter le Gondor comme \u00e9tant plus prosp\u00e8re que les autres pays, avec une client\u00e8le plus ais\u00e9e qui a tendance \u00e0 effectuer des achats plus co\u00fbteux. Cependant, \u00e0 l'instar de la Comt\u00e9, les clients du Gondor ach\u00e8tent rarement, car le pays est en paix et ils n'ont donc que rarement besoin de produits de soins. En ce qui concerne le Mordor et le Rohan, la guerre incite les clients \u00e0 acheter fr\u00e9quemment, mais les clients du Mordor sont moins fortun\u00e9s, bien que plus nombreux que ceux du Rohan. Ils d\u00e9pensent donc moins et optent pour des produits moins on\u00e9reux. Enfin, nous d\u00e9finissons des taux de d\u00e9sengagement et de recrutement standards pour le Gondor, le Rohan et la Comt\u00e9, mais des taux respectivement tr\u00e8s bas et tr\u00e8s \u00e9lev\u00e9s pour le Mordor, sugg\u00e9rant ainsi un fort enthousiasme et une grande fid\u00e9lit\u00e9 de la part de ses clients.\n\nEn termes de recommandation, nous anticipons donc que <i>GPTx<\/i> sugg\u00e8re de renforcer la pr\u00e9sence soit au Gondor soit au Mordor. L'argument avanc\u00e9 serait que les clients du Gondor sont ais\u00e9s, offrant ainsi un potentiel de d\u00e9veloppement de la marque, mais que le Mordor pr\u00e9sente un engouement plus marqu\u00e9, avec une client\u00e8le plus nombreuse, ce qui repr\u00e9sente \u00e9galement un excellent potentiel de rentabilit\u00e9.\n\nLes indicateurs correspondant \u00e0 ce sc\u00e9nario sont pr\u00e9sent\u00e9s ci-apr\u00e8s :\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Tableau-3.png\" alt=\"\" width=\"615\" height=\"450\" \/>\n\nLes indicateurs pr\u00e9c\u00e9dents refl\u00e8tent clairement la situation \u00e9voqu\u00e9e :\n<ul>\n \t<li style=\"font-weight: 400;\" aria-level=\"1\">Le Gondor poss\u00e8de une client\u00e8le d\u00e9pensi\u00e8re qui semble avoir une pr\u00e9f\u00e9rence pour les produits de luxe. Toutefois, la croissance de la marque y est modeste, et les taux de recrutement et de d\u00e9sengagement sont similaires \u00e0 ceux observ\u00e9s au Rohan et dans la Comt\u00e9.<\/li>\n \t<li style=\"font-weight: 400;\" aria-level=\"1\">Quant \u00e0 la Comt\u00e9, elle compte une client\u00e8le plut\u00f4t standard, sans caract\u00e9ristiques particuli\u00e8res, et correspondant \u00e0 un pays neutre relativement isol\u00e9 du conflit.<\/li>\n \t<li style=\"font-weight: 400;\" aria-level=\"1\">Le Mordor, en guerre contre le Rohan, attire une client\u00e8le plut\u00f4t modeste en termes de d\u00e9penses (panier moyen et prix par article bas), mais cette client\u00e8le se montre loyale : elle revient fr\u00e9quemment, effectue des achats r\u00e9guliers et reste engag\u00e9e. De plus, nous avons con\u00e7u ce march\u00e9 de mani\u00e8re \u00e0 refl\u00e9ter une expansion notable, avec un taux de recrutement \u00e9lev\u00e9 et une croissance nettement sup\u00e9rieure \u00e0 celle des autres r\u00e9gions.<\/li>\n \t<li style=\"font-weight: 400;\" aria-level=\"1\">Le Rohan, \u00e9galement en guerre, compte une client\u00e8le plus ais\u00e9e que celle du Mordor, pr\u00e9sentant des caract\u00e9ristiques d\u00e9mographiques similaires \u00e0 celles du Gondor mais avec des ressources moindres. Toutefois, en raison du conflit, ses clients effectuent des achats plus fr\u00e9quents et r\u00e9p\u00e9t\u00e9s que dans les pays encore neutres (Gondor et Comt\u00e9). Enfin, le march\u00e9 du Rohan ressemble \u00e0 celui des deux pays neutres en termes de taux de recrutement et de d\u00e9sengagement, \u00e0 l'exception d'une croissance plus marqu\u00e9e, \u00e9galement due au conflit en cours avec le Mordor.<\/li>\n<\/ul>\n<h3><b>Param\u00e8tres de l\u2019exp\u00e9rience<\/b><\/h3>\nDans l'ensemble de nos exp\u00e9rimentations, nous avons configur\u00e9 <i>GPTx<\/i> avec une temp\u00e9rature de 0, ce qui le contraint \u00e0 toujours s\u00e9lectionner le mot le plus probable lors de la g\u00e9n\u00e9ration de texte. Cette approche vise \u00e0 limiter les \u00e9ventuelles erreurs factuelles dans les analyses qualitatives de ce dernier, qui pourraient survenir s'il \u00e9tait autoris\u00e9 \u00e0 choisir des mots moins probables (ce qui serait le cas avec une temp\u00e9rature non nulle). Pour une compr\u00e9hension approfondie du concept de temp\u00e9rature dans le contexte d'un agent conversationnel, nous vous invitons \u00e0 consulter <a href=\"https:\/\/developer.nvidia.com\/blog\/how-to-get-better-outputs-from-your-large-language-model\/\">l'excellent article de NVIDIA<\/a> qui d\u00e9taille les param\u00e8tres couramment utilis\u00e9s lors de l'exploitation de mod\u00e8les de langage tels que les mod\u00e8les GPTx.\n\nDe plus, nous avons fix\u00e9 la longueur maximale des r\u00e9ponses \u00e0 1024 tokens, ce qui permet \u00e0 <i>GPTx<\/i> de fournir des r\u00e9ponses compl\u00e8tes sans \u00eatre tronqu\u00e9. Tous les autres param\u00e8tres non explicit\u00e9s dans cette section sont laiss\u00e9s \u00e0 leurs valeurs par d\u00e9faut.\n\nEnfin, lors de l'analyse des r\u00e9ponses de GPTx aux deux questions d\u00e9crites dans la section <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.5jpef9aaahy0\">\"Proc\u00e9dure exp\u00e9rimentale\"<\/a>, nous avons adopt\u00e9 une coloration syst\u00e9matique des passages en fonction de leur exactitude : vert pour les affirmations correctes, rouge pour les inexactitudes, et jaune pour les \u00e9l\u00e9ments discutables ou non pertinents, sans n\u00e9cessairement \u00eatre incorrects.\n<h2><span style=\"color: #ff6666;\"><b>Exp\u00e9rience 1 - GPT3.5<\/b><\/span><\/h2>\nApr\u00e8s avoir d\u00e9crit avec attention la proc\u00e9dure exp\u00e9rimentale dans la section <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.5jpef9aaahy0\">Proc\u00e9dure exp\u00e9rimentale<\/a>, nous pouvons enfin passer aux r\u00e9sultats.\n\nDans cette premi\u00e8re exp\u00e9rience, nous allons \u00e9valuer le mod\u00e8le <a href=\"https:\/\/platform.openai.com\/docs\/models\/gpt-3-5\">GPT3.5<\/a>, i.e. le premier agent conversationnel publi\u00e9 par OpenAI via leur application chatGPT. Ainsi, ce sera ce mod\u00e8le qui alimentera les r\u00e9ponses de <i>GPT3.5 <\/i>et qui effectuera les raisonnements n\u00e9cessaires pour tous les sc\u00e9narios d\u00e9crits dans <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.5jpef9aaahy0\">Proc\u00e9dure exp\u00e9rimentale<\/a>. Le mod\u00e8le <a href=\"https:\/\/platform.openai.com\/docs\/models\/gpt-4\">GPT4<\/a>, successeur de GPT3.5, sera \u00e9valu\u00e9 dans la section <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.vx7bh1h5hs9n\">Exp\u00e9rience 2 - GPT4<\/a>.\n<h3><b>GPT3.5 - sc\u00e9nario \"luxury\"<\/b><\/h3>\nCommen\u00e7ons par pr\u00e9senter les r\u00e9sultats de <i>GPT3.5 <\/i>sur le premier sc\u00e9nario, \"luxury\", d\u00e9crit \u00e0 la section <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.c6idaooid6bo\">Un premier sc\u00e9nario simple : \"luxury\"<\/a>. Nous pr\u00e9sentons ci-dessous la r\u00e9ponse de <i>GPT3.5 <\/i>\u00e0 la premi\u00e8re question (r\u00e9f\u00e9rez-vous au tableau de la section mentionn\u00e9e pr\u00e9c\u00e9demment pour conna\u00eetre les valeurs) :\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Tableau-4.png\" alt=\"\" width=\"615\" height=\"825\" \/>\n\nNous remarquons tout d\u2019abord que <i>GPT3.5 <\/i>fournit un compte-rendu d\u00e9taill\u00e9 et verbeux de la table de donn\u00e9es qui lui a \u00e9t\u00e9 pr\u00e9sent\u00e9e. En effet, tous les indicateurs pr\u00e9sents dans la table se retrouvent dans le descriptif (sauf pour le % de client dont le genre est inconnu, qui s\u2019obtient avec les deux autres %). Cependant, nous remarquons qu\u2019il se trompe plusieurs fois (3 fois sur les 12 classements effectu\u00e9s) dans le classement des valeurs, en intervertissant les ordres. N\u00e9anmoins, toutes les valeurs sont correctement assign\u00e9es \u00e0 leurs pays. Enfin, on constate que <i>GPT3.5 <\/i>ne tire aucune conclusion des observations qu\u2019il effectue.\n\nCependant, ceci pourra \u00eatre utile pour la seconde question qui, rappelons-le, est obtenue en envoyant les analyses de <i>GPT3.5 <\/i>en entr\u00e9e et non pas directement les indicateurs. En effet, de cette fa\u00e7on, <i>GPT3.5 <\/i>pourra raisonner sur du contenu verbeux uniquement lorsqu\u2019il s\u2019agira de fournir des recommandations, ce qui pourra peut-\u00eatre am\u00e9liorer ses capacit\u00e9s de raisonnement. La r\u00e9ponse qu\u2019il a fourni est pr\u00e9sent\u00e9e ci-apr\u00e8s :\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Tableau-5.png\" alt=\"\" width=\"612\" height=\"475\" \/>\n\nLa chose la plus importante \u00e0 observer est que <i>GPT3.5 <\/i>arrive au constat voulu, i.e. qu\u2019il faut renforcer la pr\u00e9sence de la marque au CountryA. En effet, il justifie cette d\u00e9cision par le bon argument : les clients du CountryA sont plus riches que ceux des deux autres pays et pr\u00e9sentent des indicateurs de comportement d\u2019achats plus favorables. On remarque aussi qu\u2019il effectue la corr\u00e9lation entre le taux de remplissage de l\u2019\u00e2ge et la bonne r\u00e9ponse aux campagnes marketing cibl\u00e9es, ce qui est tr\u00e8s pertinent.\n\nOn remarque cependant une analyse \u00e9tonnante de <i>GPT3.5 <\/i>qui semble corr\u00e9ler les produits de luxe aux clients f\u00e9minins. Nous ne savons pas si cette corr\u00e9lation est g\u00e9n\u00e9ralement observ\u00e9e dans le luxe, mais elle semble tout de m\u00eame hasardeuse sans plus d\u2019information sur la nature des produits (on peut penser aux montres Rolex par exemple, qui sont un produit de luxe mais sont, <i>a priori<\/i>, plus adress\u00e9es aux hommes qu\u2019aux femmes).\n\nEnfin, nous observons de nouveau la mauvaise observation sur CountryA disposant selon <i>GPT3.5 <\/i>du plus grand taux de clients f\u00e9minins (ce qui est faux, c\u2019est CountryB), mais ceci s\u2019explique par le fait que <i>GPT3.5 <\/i>ne disposait que de ses propres observations pour cette question, et qu\u2019il est donc attendu que les erreurs commises \u00e0 la premi\u00e8re \u00e9tape se propagent \u00e0 la seconde.\n\nPour conclure, bien que <i>GPT3.5 <\/i>ait fait plusieurs erreurs sur l\u2019analyse de certains indicateurs, il arrive \u00e0 la bonne conclusion et justifie correctement cette derni\u00e8re.\n<h3><b>GPT3.5 - sc\u00e9nario \"geopolitics\"<\/b><\/h3>\nNous passons d\u00e9sormais au sc\u00e9nario \"geopolitics\", repr\u00e9sentant un monde en guerre dans lequel un fabricant de produits m\u00e9dicaux tente de tirer son \u00e9pingle du jeu (cf la section <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.3bvchvms68og\">Un deuxi\u00e8me sc\u00e9nario plus complexe : \"geopolitics\"<\/a>). Voici ce que remarque <i>GPT3.5 <\/i>face \u00e0 ces indicateurs :\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Tableau-6.png\" alt=\"\" width=\"610\" height=\"755\" \/>\n\nEncore une fois, on observe un comportement similaire de <i>GPT3.5 <\/i>par rapport \u00e0 la section <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.sufei14hfapc\">Sc\u00e9nario \"luxury\"<\/a> : il remarque bien la plupart des faits d\u00e9crits par les indicateurs, mais se trompe de temps en temps sur les ordres de grandeur ou les classements. Dans ce cas, il se trompe tout de m\u00eame sur un fait important, en pla\u00e7ant le Gondor en premi\u00e8re position en termes de base de clients actifs, alors que le Mordor est bien au-dessus. L\u2019erreur est plus s\u00e9rieuse que \u00e7a qui plus est, car il se trompe dans la position de la virgule, qu\u2019il d\u00e9place d\u2019un cran \u00e0 gauche, ce qui peut laisser croire que le Mordor a environ 15k clients alors qu\u2019il en a 157k. Cependant, comme pour le cas \"luxury\", ces erreurs ne changent (pour la plupart) pas qualitativement les observations car le premier est presque toujours bon (sauf pour la base de clients actifs).\n\nPassons maintenant \u00e0 la seconde question, et observons quelles seront les cons\u00e9quences des erreurs commises par <i>GPT3.5 <\/i>lors de la premi\u00e8re \u00e9tape. En effet, on rappelle que pour la seconde question, ce dernier dispose de ses propres observations &amp; analyses, et non pas des donn\u00e9es tabulaires. La r\u00e9ponse de <i>GPT3.5 <\/i>\u00e0 la seconde question est fournie ci-apr\u00e8s :\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Tableau-7.png\" alt=\"\" width=\"610\" height=\"435\" \/>\n\nUne fois de plus, nous constatons que GPT3.5 parvient \u00e0 tirer une conclusion pertinente en sugg\u00e9rant l'ouverture d'un nouveau magasin au Gondor. De plus, il avance des arguments solides \u00e0 cet \u00e9gard : il note que les clients du Gondor sont plus enclins \u00e0 d\u00e9penser dans les magasins et pr\u00eats \u00e0 payer davantage pour leurs produits. Cependant, l'aspect le plus intrigant de la r\u00e9ponse de GPT3.5 r\u00e9side dans sa capacit\u00e9 \u00e0 int\u00e9grer correctement le contexte diplomatique qui lui a \u00e9t\u00e9 fourni. En effet, il prend en compte le fait que le Gondor est un alli\u00e9 diplomatique de Rohan et qu'il pourrait se joindre au conflit. GPT3.5 note \u00e9galement que l'entr\u00e9e en guerre du Gondor devrait entra\u00eener une augmentation de la fid\u00e9lit\u00e9 des clients, \u00e9tant donn\u00e9 que l'entreprise vend des produits m\u00e9dicaux. Cette prise en compte du contexte est cruciale, car elle d\u00e9montre la capacit\u00e9 de GPT3.5 \u00e0 croiser des informations contextuelles et des observations qualitatives pour \u00e9tayer ses recommandations.\n\nCependant, certaines erreurs persistantes subsistent par rapport \u00e0 la premi\u00e8re question. GPT3.5 r\u00e9it\u00e8re, \u00e0 tort, que le Gondor a la plus grande base de clients actifs, alors que c'est le Mordor qui d\u00e9tient cette position. Ceci est attendu, vu qu\u2019il n\u2019a connaissance que de ses observations, qui sont erron\u00e9es sur ce fait. De plus, il note que le Gondor a un taux de d\u00e9sengagement (<i>churn<\/i>) relativement faible par rapport aux autres pays, ce qui n'est pas tout \u00e0 fait exact : son taux est en effet l\u00e9g\u00e8rement inf\u00e9rieur \u00e0 celui de Rohan et de la Comt\u00e9, mais nettement sup\u00e9rieur \u00e0 celui du Mordor. Ces deux \u00e9l\u00e9ments, incorrectement pris en compte par GPT3.5 et favorables au Gondor par rapport au Mordor, expliquent pourquoi le mod\u00e8le ne songe pas \u00e0 ouvrir une boutique au Mordor, m\u00eame si cela aurait pu \u00eatre une autre option \u00e0 envisager. En effet, bien que les clients du Mordor disposent de moins de ressources financi\u00e8res, ils font preuve d'une plus grande fid\u00e9lit\u00e9 et fr\u00e9quentent plus assid\u00fbment les magasins. De plus, la croissance est significativement plus forte au Mordor. Ces deux facteurs auraient pu faire du Mordor un choix judicieux, mais GPT3.5 ne l'a pas mentionn\u00e9.\n<h3><b>GPT3.5 - Conclusion<\/b><\/h3>\nAinsi, nous avons examin\u00e9 attentivement les analyses quantitatives et les recommandations g\u00e9n\u00e9r\u00e9es par GPT3.5 lors de l'analyse des tableaux de bord pour les deux sc\u00e9narios, \"luxury\" et \"geopolitics\". Cette analyse nous a fourni des informations pr\u00e9cieuses.\n\nTout d'abord, nous avons constat\u00e9 que GPT3.5 est capable d'interpr\u00e9ter des tableaux de donn\u00e9es lorsqu'ils sont pr\u00e9sent\u00e9s en langage naturel, ce qui constitue d\u00e9j\u00e0 une r\u00e9alisation significative en soi. De plus, nous avons remarqu\u00e9 que GPT3.5 parvient \u00e0 interpr\u00e9ter correctement la grande majorit\u00e9 des informations contenues dans les tableaux qui lui sont soumis, d\u00e9montrant ainsi une solide compr\u00e9hension des concepts marketing. Enfin, toutes les r\u00e9ponses g\u00e9n\u00e9r\u00e9es par GPT3.5 sont structur\u00e9es, argument\u00e9es et r\u00e9dig\u00e9es de mani\u00e8re claire et professionnelle. \u00c0 premi\u00e8re vue, il semble donc avoir le potentiel pour \u00eatre un analyste marketing exceptionnel.\n\nCependant, un examen plus approfondi de ces r\u00e9ponses a r\u00e9v\u00e9l\u00e9 certaines erreurs qui peuvent \u00eatre attribu\u00e9es sans \u00e9quivoque \u00e0 des \"hallucinations\" du mod\u00e8le (un ph\u00e9nom\u00e8ne couramment observ\u00e9 dans les grands mod\u00e8les de langage de type GPT) :\n<ul>\n \t<li style=\"font-weight: 400;\" aria-level=\"1\">Dans <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.sufei14hfapc\">le sc\u00e9nario \"luxury\"<\/a>, GPT3.5 peut parfois se tromper dans le classement des pays en pla\u00e7ant l'un devant l'autre sur un indicateur, m\u00eame si les valeurs indiquent clairement le contraire.<\/li>\n \t<li style=\"font-weight: 400;\" aria-level=\"1\">Dans <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.nzpkuqir78io\">le sc\u00e9nario \"geopolitics\"<\/a>, GPT3.5 peut \u00e9galement commettre des erreurs en pla\u00e7ant incorrectement la virgule, entra\u00eenant ainsi une interpr\u00e9tation erron\u00e9e de la valeur.<\/li>\n<\/ul>\nPar cons\u00e9quent, bien que GPT3.5 n'ait pas \u00e9mis de recommandations erron\u00e9es dans le cadre de nos exp\u00e9riences, il est important de reconna\u00eetre que l'utilisation de ce mod\u00e8le dans un environnement de production, avec une s\u00e9rie de tableaux de bord, comporte le risque qu'une de ses \"hallucinations\" puisse \u00e9ventuellement biaiser son raisonnement et conduire \u00e0 des recommandations incorrectes, bas\u00e9es sur des donn\u00e9es ou des interpr\u00e9tations inexactes. Par cons\u00e9quent, il est essentiel de maintenir la participation humaine dans le processus de d\u00e9cision et de faire appel \u00e0 un expert du secteur pour v\u00e9rifier les conclusions, afin de d\u00e9tecter d'\u00e9ventuelles erreurs.\n\nEnfin, la question se pose : si GPT3.5 commet des erreurs, serait-ce le cas de son successeur, GPT4, qui est cens\u00e9 \u00eatre plus puissant ? Apr\u00e8s tout, <a href=\"https:\/\/x.com\/swyx\/status\/1671272883379908608?s=20\">GPT4 serait con\u00e7u comme une collaboration entre 8 GPT3.5 sp\u00e9cialis\u00e9s<\/a>, et l'un d'entre eux pourrait \u00eatre ax\u00e9 sur l'analyse des tableaux, ce qui r\u00e9duirait le risque d'erreurs. Cette hypoth\u00e8se m\u00e9rite d'\u00eatre explor\u00e9e davantage !\n<h2><span style=\"color: #ff6666;\"><b>Exp\u00e9rience 2 - GPT4<\/b><\/span><\/h2>\nNous allons dans cette section tenter de corriger les erreurs observ\u00e9es <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.fw2es6xs8ydo\">avec GPT3.5<\/a> en am\u00e9liorant le mod\u00e8le sous-jacent avec <a href=\"https:\/\/platform.openai.com\/docs\/models\/gpt-4\">GPT4<\/a>, le successeur de GPT3.5, dix fois plus cher que ce dernier, mais cens\u00e9 \u00eatre bien plus puissant et fiable. Tous les autres param\u00e8tres sont inchang\u00e9s par rapport \u00e0 la section <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.lsmqhm85eoz\">Param\u00e8tres de l\u2019exp\u00e9rience<\/a>.\n<h3><b>GPT4 - sc\u00e9nario \"luxury\"<\/b><\/h3>\nCommen\u00e7ons de nouveau par le sc\u00e9nario \"luxury\", o\u00f9 CountryA pr\u00e9sente tous les avantages pour ouvrir un nouveau magasin par rapport aux deux autres pays CountryB (pauvre) et CountryC (moyen). La r\u00e9ponse fournie \u00e0 la premi\u00e8re question est pr\u00e9sent\u00e9e ci-dessous :\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Tableau-8.png\" alt=\"\" width=\"610\" height=\"635\" \/>\n\nUn premier constat qui se d\u00e9gage est que GPT4 pr\u00e9sente une am\u00e9lioration notable par rapport \u00e0 GPT3.5 dans l'analyse des donn\u00e9es, en effectuant syst\u00e9matiquement des classements corrects des pays en fonction des diff\u00e9rents indicateurs. Contrairement \u00e0 GPT3.5, qui pouvait occasionnellement se tromper, comme illustr\u00e9 dans la section <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.sufei14hfapc\">Sc\u00e9nario \"luxury\"<\/a>. De plus, GPT4 semble prendre en consid\u00e9ration l'ordre de grandeur des variations entre les valeurs des pays, en distinguant les diff\u00e9rences importantes des plus modestes. Enfin, GPT4 arrive \u00e0 remarquer tous les ph\u00e9nom\u00e8nes que nous avons int\u00e9gr\u00e9s dans les donn\u00e9es.\n\nVoyons voir si la recommandation fournie change avec ces nouvelles observations, plus justes que celles de GPT3.5 :\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Tableau-9.png\" alt=\"\" width=\"610\" height=\"635\" \/>\n\nNous constatons avec \u00e9tonnement que GPT4 pr\u00e9conise de renforcer la pr\u00e9sence de la marque dans CountryC (le pays \"moyen\"), plut\u00f4t que dans CountryA (le pays riche) comme l'avait fait GPT3.5. Cette recommandation s'appuie principalement sur deux arguments : un march\u00e9 plus favorable que celui de CountryB (le pays pauvre) et une croissance plus importante que celle observ\u00e9e pour CountryA. Si le premier argument est incontestable, le second ne l\u2019est pas, car la diff\u00e9rence en termes de croissance entre CountryA et CountryC est modeste. Ce qui interpelle, c'est que GPT4 reconna\u00eet que les clients de CountryA affichent de meilleures performances, mais cela ne suffit pas \u00e0 le faire pencher en faveur de ce dernier par rapport \u00e0 CountryC. Ainsi, si les arguments avanc\u00e9s par GPT4 sont pertinents, il semble n\u00e9anmoins commettre une l\u00e9g\u00e8re erreur de raisonnement, en accordant une importance excessive \u00e0 certains \u00e9l\u00e9ments (notamment la croissance), ce qui alt\u00e8re sa recommandation.\n\nCette erreur dans la recommandation est d'autant plus surprenante que GPT4 avait excell\u00e9 dans ses interpr\u00e9tations pr\u00e9c\u00e9dentes et semblait plus pertinent dans ses analyses que GPT3.5. Si nous nous aventurons \u00e0 tenter d'expliquer cette situation, nous pourrions avancer l'id\u00e9e que la recommandation de CountryC (au lieu de CountryA) est en r\u00e9alit\u00e9 une erreur commise par GPT4 sur ce mot en particulier. Ensuite, \u00e9tant donn\u00e9 que les mod\u00e8les GPT sont des mod\u00e8les g\u00e9n\u00e9ratifs, GPT4 a d\u00fb g\u00e9n\u00e9rer les mots suivants avec cette erreur d\u00e9j\u00e0 pr\u00e9sente, qu'il ne pouvait plus corriger. Il a donc tent\u00e9 de justifier ce mauvais choix comme il le pouvait, en avan\u00e7ant une s\u00e9rie d'arguments qui ne sont pas tout \u00e0 fait faux, mais qui ne sont pas non plus tout \u00e0 fait justes (surlign\u00e9s en jaune dans le tableau ci-dessus).\n<h3><b>GPT4 - sc\u00e9nario \"geopolitics\"<\/b><\/h3>\nAfin de savoir si le passage \u00e0 GPT4, cens\u00e9 \u00eatre plus performant que GPT3.5, permet de corriger ou du moins de diminuer les erreurs effectu\u00e9es lors de la description des donn\u00e9es (\u00e9tape 1 de la section <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.5jpef9aaahy0\">Proc\u00e9dure exp\u00e9rimentale<\/a>), nous avons r\u00e9alis\u00e9 le sc\u00e9nario \"geopolitics\" en utilisant GPT4 au lieu de GPT3.5. Les autres param\u00e8tres ont \u00e9t\u00e9 inchang\u00e9s.\n\nLa r\u00e9ponse apport\u00e9e \u00e0 la premi\u00e8re question est pr\u00e9sent\u00e9e ci-dessous :\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Tableau-10.png\" alt=\"\" width=\"610\" height=\"515\" \/>\n\nNous observons que, de nouveau, GPT4 ne commet aucune erreur d\u2019analyse : toutes les observations d\u00e9crites sont correctes, et GPT4 semble \u00e0 nouveau prendre en compte les ordres de grandeur. En effet, il observe que la proportion d\u2019hommes parmi la client\u00e8le du Mordor est \u00e9tonnamment \u00e9lev\u00e9e par rapport aux autres pays. Il remarque \u00e9galement que le Mordor a significativement plus de clients actifs que les autres. Ceci est une nette am\u00e9lioration qualitative par rapport aux observations faites avec GPT3.5, qui semblait se contenter de faire des classements.\n\nVoyons voir si la recommandation fournie pour la seconde question change par rapport \u00e0 celle de la section <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.nzpkuqir78io\">Sc\u00e9nario \"geopolitics\"<\/a>:\n\n<img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.claravista.ai\/blog\/wp-content\/uploads\/2023\/10\/Tableau-11.png\" alt=\"\" width=\"610\" height=\"475\" \/>\n\nNous constatons que GPT4 pr\u00e9conise d\u00e9sormais de renforcer sa pr\u00e9sence au Mordor, en contraste avec son pr\u00e9d\u00e9cesseur qui sugg\u00e9rait plut\u00f4t le Gondor. Cette recommandation est \u00e9tay\u00e9e par des faits av\u00e9r\u00e9s : le Mordor affiche une client\u00e8le plus importante et un march\u00e9 en pleine expansion, ce qui en fait une opportunit\u00e9 favorable pour l'ouverture d'un nouveau magasin. Cependant, il nuance judicieusement sa recommandation en mettant en \u00e9vidence le budget moyen relativement faible des clients du Mordor, sugg\u00e9rant ainsi une adaptation de la strat\u00e9gie marketing.\n\nPar ailleurs, nous notons une fois de plus que GPT4 tient compte du contexte dans sa proposition. Il souligne notamment que la position de l'entreprise permet d'envisager sereinement des activit\u00e9s au Mordor, en raison de la neutralit\u00e9 de l'entreprise, et que l'assurance d'un approvisionnement stable malgr\u00e9 le conflit rend viable l'option d'ouvrir un magasin dans cette r\u00e9gion. De plus, il int\u00e8gre le contexte en mentionnant que la client\u00e8le du Mordor est majoritairement jeune et masculine, ce qui correspond \u00e0 la cible des produits de l'entreprise, essentiellement des produits de soin destin\u00e9s aux soldats, qui sont souvent jeunes et masculins.\n\nEn conclusion, nous observons que, pour ce sc\u00e9nario, les observations et recommandations effectu\u00e9es par GPT4 sont qualitativement meilleures que celles fournies par GPT3.5.\n<h3><b>GPT4 - Conclusion<\/b><\/h3>\nEn r\u00e9sum\u00e9, GPT4 semble d\u00e9montrer une capacit\u00e9 sup\u00e9rieure \u00e0 celle de son pr\u00e9d\u00e9cesseur, GPT3.5, en tant qu'analyste marketing comp\u00e9tent. Il se distingue en \u00e9vitant toute erreur dans la manipulation de donn\u00e9es et dans la classification lors de ses analyses. De plus, il semble prendre en consid\u00e9ration l'ordre de grandeur lorsqu'il examine les tableaux de bord, une comp\u00e9tence qui manquait \u00e0 GPT3.5. De surcro\u00eet, il est capable de fournir des recommandations pertinentes et bien argument\u00e9es, en prenant soin de prendre en compte le contexte (par exemple, en sugg\u00e9rant d'adapter la strat\u00e9gie marketing pour les clients moins fortun\u00e9s de Mordor dans <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.jy0ig1kx4w10\">le sc\u00e9nario \"g\u00e9opolitique\"<\/a>).\n\nCependant, de mani\u00e8re paradoxale, malgr\u00e9 ces interpr\u00e9tations brillantes et pertinentes, nous avons constat\u00e9 une recommandation erron\u00e9e dans <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.8n8ukst97w5a\">le sc\u00e9nario \"luxury\"<\/a>. En effet, GPT4 a recommand\u00e9 le mauvais pays, et a ensuite tent\u00e9 de se justifier en utilisant une s\u00e9rie d'arguments plut\u00f4t hasardeux, qui pourraient \u00eatre consid\u00e9r\u00e9s comme de la mauvaise foi s'ils avaient \u00e9t\u00e9 formul\u00e9s par un analyste humain. Nous attribuons ce ph\u00e9nom\u00e8ne \u00e0 une unique hallucination survenue \u00e0 un moment critique, poussant GPT4 \u00e0 \u00e9laborer un argumentaire pour tenter de pallier cette erreur irr\u00e9parable.\n\nCette seule erreur remet en question l'utilisation non supervis\u00e9e de GPT4 en tant qu'analyste marketing. Par cons\u00e9quent, tout comme son pr\u00e9d\u00e9cesseur, ses r\u00e9ponses n\u00e9cessitent une relecture et une validation par un expert afin de pr\u00e9venir toute recommandation bas\u00e9e sur des hallucinations.\n<h2><span style=\"color: #ff6666;\"><b>Conclusion<\/b><\/span><\/h2>\nAinsi, au cours de cette \u00e9tude, nous avons scrut\u00e9 l'aptitude des mod\u00e8les GPT d'OpenAI \u00e0 automatiser l'analyse des tableaux de bord et la r\u00e9daction de rapports correspondants. Pour ce faire, nous avons cr\u00e9\u00e9 des tableaux de bord fictifs contenant des indicateurs bien \u00e9tablis, en \u00e9vitant d\u00e9lib\u00e9r\u00e9ment nos indicateurs plus avanc\u00e9s et moins intuitifs. Ces tableaux de bord d\u00e9crivaient des situations sp\u00e9cifiques, d\u00e9taill\u00e9es dans la section <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.5jpef9aaahy0\">Proc\u00e9dure exp\u00e9rimentale<\/a>, et variaient en termes de facilit\u00e9 d'interpr\u00e9tation \u00e0 partir des valeurs des indicateurs. Nous avons ensuite v\u00e9rifi\u00e9 si les mod\u00e8les \u00e9taient capables de fournir les analyses et les recommandations attendues.\n\nDans <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.fw2es6xs8ydo\">la premi\u00e8re exp\u00e9rience<\/a>, nous avons \u00e9valu\u00e9 les capacit\u00e9s de GPT3.5, le mod\u00e8le qui alimente la version gratuite de chatGPT, pour g\u00e9n\u00e9rer des analyses et des observations \u00e0 partir des tableaux d'indicateurs. Nous avons constat\u00e9 que GPT3.5 \u00e9tait g\u00e9n\u00e9ralement capable de fournir des observations correctes (c'est-\u00e0-dire la description des valeurs des indicateurs) mais qu'il commettait r\u00e9guli\u00e8rement des erreurs de classification des valeurs des indicateurs. De plus, il semblait avoir du mal \u00e0 saisir l'ordre de grandeur des diff\u00e9rences observ\u00e9es, en traitant par exemple de la m\u00eame mani\u00e8re une diff\u00e9rence du simple au double et une diff\u00e9rence \u00e0 la virgule pr\u00e8s. Malgr\u00e9 ces limitations, dans les deux sc\u00e9narios \u00e9tudi\u00e9s, GPT3.5 a abouti \u00e0 la conclusion correcte et a fourni l'une des recommandations attendues. En d'autres termes, ses erreurs d'observation n'ont pas influenc\u00e9 le r\u00e9sultat final. Cependant, compte tenu de la nature des erreurs possibles, il est plausible, voire certain en cas de r\u00e9p\u00e9tition, qu'une erreur puisse se produire sur un aspect crucial, poussant ainsi GPT3.5 \u00e0 une recommandation incorrecte. Par cons\u00e9quent, GPT3.5 semble encore insuffisamment fiable pour mener \u00e0 bien la t\u00e2che et n\u00e9cessite une intervention humaine tout au long du processus.\n\nDans <a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.vx7bh1h5hs9n\">une seconde exp\u00e9rience<\/a>, nous avons reproduit le processus en utilisant GPT4, le successeur de GPT3.5. Cette fois-ci, nous avons remarqu\u00e9 que ce premier semblait ne plus faire d'erreurs de classification et qu'il \u00e9tait capable de discerner les \u00e9carts significatifs des \u00e9carts mineurs entre les indicateurs. Ainsi, GPT4 semble corriger les erreurs commises par GPT3.5 dans la r\u00e9daction des analyses. Cependant, de mani\u00e8re paradoxale, malgr\u00e9 ses interpr\u00e9tations justes, nous avons observ\u00e9 que GPT4 s'est tromp\u00e9 dans l'une des deux situations (<a href=\"https:\/\/docs.google.com\/document\/d\/1WP_XfQF9Rgn_xszdk3xBfdLxkIGarXOMZIXdLV3jT4E\/edit#heading=h.8n8ukst97w5a\">le sc\u00e9nario \"luxury\"<\/a>). En effet, il a confondu deux pays au d\u00e9but de sa recommandation (erreur similaire \u00e0 celle de GPT3.5), puis a cherch\u00e9 \u00e0 justifier sa recommandation erron\u00e9e en utilisant une s\u00e9rie d\u2019arguments biais\u00e9s \u00e0 d\u00e9faut d\u2019\u00eatre incorrects. Ce comportement est potentiellement probl\u00e9matique, car il peut compliquer la d\u00e9tection des erreurs. Ainsi, bien que tr\u00e8s impressionnant, GPT4 requiert \u00e9galement une intervention humaine d\u00e8s l'analyse des donn\u00e9es, tout comme son pr\u00e9d\u00e9cesseur.\n\nNous constatons donc que, bien que les mod\u00e8les propos\u00e9s par OpenAI soient impressionnants et hautement performants, ils ne sont pas encore pr\u00eats \u00e0 fonctionner de mani\u00e8re autonome et n\u00e9cessitent une guidance humaine tout au long du processus. Cependant, leur utilisation en tandem avec l'expertise humaine peut grandement am\u00e9liorer la qualit\u00e9 des r\u00e9sultats, car les experts peuvent tirer parti de leurs capacit\u00e9s r\u00e9dactionnelles et de leur exhaustivit\u00e9 pour cr\u00e9er des rapports plus complets, plus fiables et mieux argument\u00e9s. Cette collaboration entre l'intelligence artificielle et l'intelligence humaine est un principe que ClaraVista soutient depuis de nombreuses ann\u00e9es et que nous pr\u00e9conisons aupr\u00e8s de nos clients, l'appliquant dans tous nos projets. En combinant la puissance de l'apprentissage automatique (englobant les IA de type GPT) et l'expertise en marketing, nous sommes convaincus d'atteindre les meilleurs r\u00e9sultats, et cette \u00e9tude vient renforcer cette conviction.\n\nSi vous souhaitez en savoir plus sur nos travaux ou pensez que notre expertise pourrait vous \u00eatre b\u00e9n\u00e9fique, n'h\u00e9sitez pas \u00e0 nous contacter via <a href=\"https:\/\/www.claravista.ai\/\">notre site web<\/a>.\n<p style=\"text-align: center;\"><strong>www.claravista.ai<\/strong><\/p><\/div>","protected":false},"excerpt":{"rendered":"<p>\u00c9tude : Automatisation de l\u2019analyse de KPIs, un essai avec Chat GPT d\u2019Open AI.\u00a0 Par Ahmed-Amine Homman, Research Project Manager chez ClaraVista Titulaire d'un doctorat en Math\u00e9matiques Appliqu\u00e9es obtenue \u00e0 l'Ecole des Ponts ParisTexh (Universit\u00e9 Paris-Est) et ancien \u00e9l\u00e8ve de l'Ecole Normale Sup\u00e9rieure de Lyon, Ahmed-Amine coordonne l'effort de R&amp;D de l'entreprise depuis 4 ans. <a class=\"more-link small\" href=\"https:\/\/www.claravista.ai\/blog\/2023\/10\/10\/et-si-on-laissait-lia-faire-notre-travail\/\">[lire la suite]<\/a><\/p>\n","protected":false},"author":15,"featured_media":607,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[77,78],"tags":[13,45,3,23],"_links":{"self":[{"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/post\/568"}],"collection":[{"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/post"}],"about":[{"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/users\/15"}],"replies":[{"embeddable":true,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/comments?post=568"}],"version-history":[{"count":27,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/post\/568\/revisions"}],"predecessor-version":[{"id":730,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/post\/568\/revisions\/730"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/media\/607"}],"wp:attachment":[{"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/media?parent=568"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/categories?post=568"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.claravista.ai\/blog\/wp-json\/wp\/v2\/tags?post=568"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}