Passer au contenu

Bac 2023 : ChatGPT battu à plate couture par un célèbre philosophe

Être ou ne pas être… doué en philosophie, telle est la question.

Ce mercredi 14 juin, une expérience particulièrement marquante attendait les élèves de terminale, qui ont dû se frotter à la fameuse épreuve de philosophie du baccalauréat. Mais cette année, il n’y a pas que des lycéens qui se sont pliés à l’exercice. La Paris School of Technology & Business, une école de commerce basée dans la capitale française, a profité de l’occasion pour organiser un duel entre deux candidats aux profils un peu particuliers : le philosophe Raphaël Enthoven… et ChatGPT, le fameux chatbot dopé au machine learning.

Certes, il s’agit avant tout d’une opération de communication. Mais l’initiative n’est pas inintéressante pour autant ; c’est une bonne façon d’explorer le fonctionnement et les limites de ces algorithmes de façon extrêmement concrète. Et quelques constats édifiants ont effectivement émergé de cette expérience.

Contrairement aux élèves, le philosophe et le chatbot n’ont pas eu le choix entre les trois sujets traditionnellement proposés. Ils ont dû produire une dissertation pour répondre à la question suivante : « Le bonheur est-il affaire de raison ? ».

ChatGPT n’a pas fait de miracle

Enthoven n’a évidemment eu besoin que d’un stylo et de son cerveau pour se lancer dans la rédaction. ChatGPT, en revanche, a eu besoin d’un peu de préparation. Les organisateurs ne se sont pas contentés de lui proposer l’intitulé du sujet de but en blanc. À la place, ils ont composé une requête textuelle (ou prompt) assez complexe qui expliquait, entre autres, ce que les correcteurs attendaient dans ce genre de dissertation.

Selon Europe 1, les deux copies ont été corrigées par deux enseignants. La première, Éliette Abécassis, est professeure agrégée de philosophie. Le second, Lev Fraenckel, un professeur de lycée qui publie sous l’alias Serial Thinker sur TikTok. Pour préserver une certaine neutralité, ils ont évalué les deux rendus en aveugle — c’est-à-dire sans savoir quel candidat avait produit quelle dissertation.

Mais cette précaution était peut-être superflue, car il existait des différences flagrantes entre les deux devoirs. Éliette Abécassis a par exemple déclaré à Europe 1 qu’elle avait été capable de deviner l’auteur de chaque copie « dès les premiers mots ». Et cela s’est ressenti au niveau de la note.

Sans surprise, le philosophe, qui était surtout là pour servir de référence, s’en est sorti avec un 20/20. ChatGPT, en revanche, a dû se contenter d’un modeste 11/20. Et il a bien mérité ce score tout juste passable.

Rédiger n’est pas disserter

Car malgré le prompt très élaboré des organisateurs, l’algorithme ne semble pas avoir entièrement compris l’exercice de la dissertation. Il a notamment commis une erreur difficilement pardonnable dans ce contexte : il n’est pas parvenu à dégager une problématique claire et solide sur laquelle construire son raisonnement, alors que c’est pourtant la base de l’exercice.

Si l’on se fie à l’analyse des correcteurs, la copie du chatbot était finalement une succession de phrases certes ponctuées de « quelques audaces stylistiques », mais finalement « assez creuses » et remplie d’arguments boiteux empilés avec maladresse.

Lev Fraenckel a également souligné une autre faiblesse de ChatGPT. Les références aux auteurs, par ailleurs essentielles pour produire une dissertation de qualité, étaient peu pertinentes et parfois mal interprétées.

La conclusion, générique à souhait, est assez représentative de ces écueils : « Le bonheur pourrait bien être une affaire de raison… et bien plus encore », a décrété ChatGPT. Toujours selon Europe 1, pour comparaison, Enthoven a de son côté conclu à « l’urgence et l’intérêt de penser la raison elle-même et son activité comme un bonheur ».

La philosophie humaine a de beaux jours devant elle

Ce résultat n’est pas surprenant lorsqu’on sait comment fonctionnent ces outils. Évidemment, ils sont encore très loin de pouvoir imiter les nuances de la pensée humaine. En substance, il ne s’agit que d’algorithmes qui se contentent de produire des suites de mots cohérents – ni plus ni moins. Cette stratégie fonctionne très bien dans certains contextes. Mais elle est mal adaptée à la philosophie, qui consiste à décortiquer une myriade de concepts souvent très abstraits avec finesse.

De plus, les différentes branches de la philosophie sont souvent construites à partir des expériences et réflexions intrinsèquement humaines et personnelles de certains grands penseurs. Or, ChatGPT en est par définition incapable. Il a été spécifiquement entraîné pour proposer des réponses relativement neutres. Ce modèle intrinsèquement généraliste n’avait donc aucune chance de rivaliser, puisqu’il n’a pas été entraîné spécifiquement pour cette activité.

Au bout du compte, la conclusion est claire et limpide : ChatGPT est encore à des années lumières de remplacer les philosophes humains. C’est en tout cas l’avis d’Enthoven, qui considère que « l’enseignement de la philosophie n’est pas menacé ». Il va encore falloir patienter avant de voir un système sur l’IA fonder une nouvelle école de pensée.

Comme dans les disciplines artistiques, l’IA pourrait effectivement contribuer à sa manière, en fournissant quelques éléments susceptibles de faire germer des idées chez les humains ; mais un IA-ristote, un FreudLLM ou un CamusGPT ne sont encore à l’ordre du jour. En revanche, on peut déjà affirmer que les philosophes humains ne se priveront pas de s’interroger sur les implications de cette technologie pour notre civilisation !

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

5 commentaires
  1. Une IA aurait donc eu son bac de Philo, pendant qu’un type a été surévalué (pour une épreuve de Bac hein) d’après ceux qui ont pris la peine de lire les copies.

  2. Je me demande comment a été faite l’évaluation, les correcteurs ont ils bien lus les copies à l’aveugle.
    D’autres questions importantes :
    Quelle version de ChatGPT a été utilisée ? J’ose imaginer qu’ils ont utilisé la version 4.5.
    Comment a été préparée ChatGPT pour faire sa copie ? Peut-on avoir une copie du prompt préparatoire ? Ceci a une grande importance pour augmenter ou réduire la qualité de la copie.
    Une remarque : 11/20 c’est plutôt pas mal, beaucoup d’élèves font moins bien. Attention donc à la conclusion de l’article : quand Kasparov a battu son dernier bot d’échec, on a tous pensé que la promesse qu’il ne soit pas battu avant l’an 2000 serait respectée. Ca n’a pas été le cas. Je fais le pari que dans 2 ans maximum, peut-être l’année prochaine, une IA fera une copie considérée parfaite à l’épreuve de philo.

  3. Vu qu’une IA c’est juste un programme qui réalise une tâche de manière débile. Qu’est ce qui est noté ? La qualité du prompt ou le résultat d’une équation algorithmique ?

    Faut VRAIMENT arrêter de se palucher sur le fait que les IA font preuve de réflexion. C’est juste : non. Derrière il y aura toujours un humain pour faire un input plus ou moins bon, qui donnera un résultat plus moins bon par rapport à ce qu’on pourrait attendre.

  4. ChatGpt n’est qu’une IA conversationnelle généraliste.
    Donc face à un philosophe aucune change de gagner. En revanche si quelqu’un décidait de relever le défit et de créer un model spécialement conçu pour faire des devoirs de philo, l’humain n’aurai alors aucune chance face à une correction en double aveugle (sauf si le correcteur est de mauvaise fois et qu’il sanctionne la perfection 😉 ).
    Par ailleurs, on n’en est qu’au début. Quand la création d’IA forte doté de conscience phénoménale (ça peut pas dire géniale c’est juste le nom de la conscience de soit) c’est dans n’importe quel domaine qu’elle surpassera l’humain.

  5. Ce “combat” était joué d’avance, il a été habillement conçu dans le but de faire le buzz pour l’école qui organise et pour Enthoven de se faire mousser encore un peu.
    l’IA ne pouvait pas gagner car les correcteurs savaient qu’ils allaient corriger 2 copies (et seulement 2 copies) dont l’une sera rédigée par un philosophe médiatique très motivé et au style typique et très reconnaissable et l’autre sera rédigée par une IA sans âme ni passion. N’importe qui dans ces conditions aurait identifié l’auteur de chaque copie. Et l’humain étant ce qu’il est avec ses biais, il était évident que la copie de l’IA serait défavorisée (11/20) et celle de l’invité prestigieux de l’école organisatrice serait surcôtee (20/20 en philo, quand même, du foutage de gueule en fait).
    Le youtubeur Mr Phi a réalisé une vidéo avant le “combat” et on constate que si on se donne la peine de créer un prompt adéquat, l’IA peut générer des textes très convaincant, en imitant même le style d’Enthoven, c’est assez drôle a voir. Je suis certain que si chat GPT avait été “prompté” par Mr Phi, que les copies avaient été glissées anonymement dans une pile de copies random ET que les correcteurs ignoraient qu’ils vont corriger une copie d’une IA et une autre d’un philosophe “pro”, dans ce cas le résultat aurait été tout autre.

Les commentaires sont fermés.

Mode