Après des mois de spéculation et des promesses retentissantes de « superintelligence » par le PDG d'OpenAI, Sam Altman, le lancement du modèle GPT-5 a suscité une forte déception. Loin de la percée révolutionnaire annoncée, les premières réactions et les benchmarks suggèrent des progrès progressifs, mais pas la transformation radicale que beaucoup attendaient, remettant en question la rhétorique autour de l'intelligence artificielle avancée.
Un lancement décevant pour GPT-5
Malgré l'accueil généralement positif réservé aux précédents modèles open-source d'OpenAI, le déploiement de GPT-5 a été largement critiqué. Des utilisateurs ont rapporté une « personnalité diluée », des « erreurs étonnamment stupides », ainsi que des réponses lentes et des « hallucinations ». Des problèmes techniques, comme un mécanisme défectueux pour passer de GPT-5 à GPT-4o, ont également contribué à la frustration.
La déception est d'autant plus marquée que GPT-5 était attendu avec impatience depuis les débuts impressionnants de son prédécesseur, GPT-4, en mars 2023. Sam Altman avait lui-même alimenté cette attente en soulignant l'ampleur du défi technique à relever, suggérant l'arrivée d'un véritable « petit miracle ».
Des progrès mesurés, loin de la "superintelligence"
Ce qui a été livré avec GPT-5 représente certes une amélioration, mais pas la rupture promise. Les tests de référence mettent en lumière des performances nuancées.
Performances aux tests de référence
- Sur l'un des tests d'intelligence artificielle les plus respectés, l'Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI-2), GPT-5 a obtenu un score de 9,9 %, ce qui est inférieur à Grok-4 (15,9 %) développé par xAI d'Elon Musk, selon François Chollet, le créateur de l'ARC-AGI.
- Sur l'ancienne version du test (ARC-AGI-1), GPT-5 a obtenu 67,5 % de réponses correctes, soit moins que l'ancien modèle OpenAI, o3, qui avait atteint 76 % en décembre.
Voici les résultats détaillés des trois modèles de GPT-5 sur les tests ARC-AGI-1 et ARC-AGI-2, selon Arc Prize :
- GPT-5
- ARC-AGI-1 : 65.7%
- ARC-AGI-2 : 9.9%
- GPT-5 Mini
- ARC-AGI-1 : 54,3 %
- ARC-AGI-2 : 4,4%
- GPT-5 Nano
- ARC-AGI-1 : 16,5 %
- ARC-AGI-2 : 2,5%
Évaluation en matière de codage
Dans le domaine du codage, malgré des progrès habituels avec chaque nouveau modèle d'IA, David Gewirtz de ZDNET a constaté que GPT-5 représentait un « pas en arrière » dans ses tests. Bien qu'il reconnaisse un bond en avant dans l'analyse des référentiels de code, il estime que ce n'est pas un « game changer ».
En somme, les promesses de superintelligence ont cédé la place à un simple progrès incrémental, loin des attentes immenses qui ont transformé GPT-5 en une déception majeure pour de nombreux utilisateurs et experts.
Les chercheurs démystifient le "raisonnement" de l'IA
Malgré l'hyperbole continue d'OpenAI et d'autres concernant la "superintelligence", l'absence de véritable percée "cognitive" avec GPT-5 incite à un examen plus approfondi des termes utilisés, tels que "pensée" et "raisonnement". OpenAI affirme que GPT-5 excelle dans ce qu'on appelle le "raisonnement", c'est-à-dire la capacité à générer des étapes pour répondre à une question.
Des études remettent en question la notion de raisonnement des LLM
Cependant, des recherches récentes ont commencé à contredire ces allégations :
- Un document de recherche d'Apple a conclu que les grands modèles de raisonnement (LRM) ne "raisonnent" pas systématiquement comme on l'entend communément. Les programmes deviennent erratiques face à des problèmes complexes, montrant un « effondrement complet de la précision » au-delà de certaines complexités.
- De même, des chercheurs de DeepMind, Ghengshuai Zhao et son équipe, ont souligné que la "chaîne de pensée" (Chain of Thought - CoT) des LRM, bien qu'elle donne l'impression de processus déductifs délibérés, est en réalité « plus superficielle qu'il n'y paraît ». Ils la décrivent comme un « mirage fragile » qui disparaît lorsqu'il est poussé au-delà de ses données d'entraînement.
Vers des attentes plus réalistes
Ces évaluations techniques rigoureuses remettent en question l'hyperbole propagée par des figures comme Sam Altman et d'autres qui exploitent de manière désinvolte les notions d'intelligence. Il est crucial que le grand public démonte également cette hyperbole et porte une attention particulière à la légèreté avec laquelle des termes comme « superintelligence » sont employés. Cela permettra d'établir des attentes plus raisonnables pour les futures avancées de l'IA, y compris l'arrivée de GPT-6.
Source : Zdnet.fr
Cet article a été rédigé avec l’assistance d’un modèle de langage (LLM).