Le dernier modèle de grande langue d'OpenAI a réalisé des améliorations apparemment décevantes dans les performances, ce qui a conduit à des questions sur la question de savoir si l'industrie de l'IA peut faire des progrès importants avec ses conceptions actuelles

GPT-5 est la dernière version du modèle grand langage d'Openai
Le dernier pas en avant d'Ai n'est pas tant un saut géant qu'un mélange provisoire. Openai a publié son nouveau modèle d'IA, GPT-5, deux ans après le déploiement du GPT-4, dont le succès a poussé le chatpt vers la domination mondiale. Mais malgré les promesses d'un saut de capacité similaire, le GPT-5 semble montrer peu d'amélioration par rapport aux autres modèles d'IA de premier plan, laissant entendre que l'industrie peut avoir besoin d'une nouvelle approche pour construire des systèmes d'IA plus intelligents.
Les propres déclarations d'Openai saluent GPT-5 comme un «saut significatif de l'intelligence» des modèles précédents de l'entreprise, montrant des améliorations apparentes de la programmation, des mathématiques, de l'écriture, des informations sur la santé et de la compréhension visuelle. Il promet également des hallucinations moins fréquentes, c'est-à-dire lorsqu'une IA présente de fausses informations comme vraie. Sur une référence interne mesurant les «performances sur un travail de connaissances complexes et économiquement précieux», OpenAI dit que le GPT – 5 est «comparable à ou mieux que les experts dans environ la moitié des cas… dans toutes les tâches couvrant plus de 40 professions, y compris le droit, la logistique, les ventes et l'ingénierie».
Cependant, les performances de GPT-5 sur les références publiques ne sont pas considérablement meilleures que la direction de modèles d'autres sociétés d'IA, comme Claude d'Anthropic ou les Gémeaux de Google. Il s'est amélioré sur GPT-4, mais la différence pour de nombreux repères est plus petite que le saut de GPT-3 à GPT-4. De nombreux clients de Chatgpt n'ont pas non plus été impressionnés, des exemples de GPT-5 ne répondant pas à des requêtes apparemment simples recevant une attention généralisée sur les réseaux sociaux.
«Beaucoup de gens espéraient qu'il y aurait une percée, et ce n'est pas une percée», explique Mirella Lapata à l'Université d'Édimbourg, au Royaume-Uni. «C'est une mise à niveau, et c'est un peu progressif.»
Les mesures les plus complètes de la performance de GPT-5 proviennent d'Openai elle-même, car elle a seulement un accès complet au modèle. Peu de détails sur l'indice de référence interne ont été rendus publics, explique Anna Rogers à l'Université informatique de Copenhague au Danemark. « Par conséquent, ce n'est pas quelque chose qui peut être sérieusement discuté comme une affirmation scientifique. »
Dans un point de presse avant le lancement du modèle, PDG d'Openai Sam Altman a affirmé que «GPT-5 est la première fois que cela ressemble vraiment à parler à un expert dans n'importe quel sujet, comme un expert au niveau du doctorat.» Mais cela n'est pas soutenu par des références, explique Rogers, et on ne sait pas comment un doctorat se rapporte plus généralement à l'intelligence. «Les gens très intelligents n'ont pas nécessairement de doctorants, et avoir un tel diplôme ne garantit pas nécessairement une intelligence élevée», explique Rogers.
Les améliorations apparemment modestes de GPT-5 pourraient être un signe de difficultés plus larges pour les développeurs de l'IA. Jusqu'à récemment, on pensait que des modèles de langage aussi importants (LLM) deviennent plus capables avec plus de données d'entraînement et de puissance informatique. Il semble que cela ne soit plus confirmé par les résultats des derniers modèles, et les entreprises n'ont pas réussi à trouver de meilleures conceptions de systèmes d'IA que celles qui ont propulsé Chatgpt. «Tout le monde a la même recette en ce moment et nous savons quelle est la recette», explique Lapata, se référant au processus de modèles de pré-formation avec une grande quantité de données, puis effectuant des ajustements avec des processus post-entraînement par la suite.
Cependant, il est difficile de dire à quel point les LLM sont proches de stagner parce que nous ne savons pas exactement comment des modèles comme GPT-5 sont conçus, explique Nikos Aletras à l'Université de Sheffield, au Royaume-Uni. « Essayer de faire des généralisations sur (si) les modèles de grande langue ont atteint un mur pourraient être prématurés. Nous ne pouvons pas vraiment faire ces affirmations sans aucune information sur les détails techniques. »
OpenAI a travaillé sur d'autres moyens de rendre son produit plus efficace, comme le nouveau système de routage de GPT-5. Contrairement aux instances précédentes de ChatGPT, où les gens peuvent choisir le modèle d'IA à utiliser, GPT-5 analyse désormais les demandes et les dirige vers un modèle spécifique qui utilisera une quantité appropriée de puissance de calcul.
Cette approche pourrait être adoptée plus largement, explique Lapata. «Les modèles de raisonnement utilisent beaucoup de (calcul), et cela prend du temps et de l'argent», dit-il. « Si vous pouvez y répondre avec un modèle plus petit, nous en verrons plus à l'avenir. » Mais cette décision a mis en colère certains clients de Chatgpt, ce qui a incité Altman à dire que l'entreprise envisage d'améliorer le processus de routage.
Il y a des signes plus positifs pour l'avenir de l'IA dans un modèle OpenAI séparé qui a obtenu des scores de médailles d'or dans les compétitions mathématiques et codantes d'élite au cours du dernier mois, ce que les meilleurs modèles d'IA ne pouvaient pas faire il y a un an. Bien que les détails de la façon dont les modèles fonctionnent sont à nouveau rares, les employés d'Openai ont déclaré que son succès suggère que le système a des capacités de raisonnement plus générales.
Ces compétitions sont utiles pour tester des modèles sur les données qu'ils n'ont pas vues lors de leur formation, explique Aletras, mais ce sont toujours des tests étroits d'intelligence. L'augmentation des performances d'un modèle dans un domaine pourrait également aggraver les autres personnes, explique Lapata, qui peut être difficile à suivre.
Un domaine où GPT-5 s'est considérablement amélioré est son prix, qui est maintenant beaucoup moins cher que les autres modèles – le meilleur modèle de Claude d'Anthropic, par exemple, coûte environ 10 fois plus pour traiter le même nombre de demandes au moment de la rédaction. Mais cela pourrait présenter ses propres problèmes à long terme, si le revenu d'Openai ne couvre pas les coûts importants qu'ils ont engagés à construire et à gérer de nouveaux centres de données. «Le prix est fou. C'est si bon marché que je ne sais pas comment ils peuvent se le permettre», explique Lapata.
La concurrence entre les meilleurs modèles d'IA est féroce, en particulier dans l'attente que le premier modèle à prévenir les autres prendra la majeure partie de la part de marché. «Toutes ces grandes entreprises, elles essaient d'être le seul gagnant, et c'est difficile», explique Lapata. «Vous êtes un gagnant pendant trois mois.»


