in ,

Le modèle Gemini 3 de Google maintient le train à la mode de l'IA – pour l'instant

Le modèle Gemini 3 de Google maintient le train à la mode de l'IA – pour l'instant

Le dernier modèle de Google aurait battu ses concurrents dans plusieurs tests de référence, mais des problèmes de fiabilité suscitent des inquiétudes concernant une éventuelle bulle de l'IA.

Le modèle Gemini 3 de Google maintient le train à la mode de l'IA – pour l'instant

Gemini 3 est le dernier modèle d'IA de Google

Le dernier chatbot de Google, Gemini 3, a fait des progrès significatifs par rapport à une série de tests conçus pour mesurer les progrès de l'IA, selon la société. Ces réalisations suffisent peut-être pour le moment à apaiser les craintes d’éclatement d’une bulle d’IA, mais il est difficile de savoir dans quelle mesure ces scores se traduisent en capacités réelles.

De plus, les inexactitudes factuelles persistantes et les hallucinations qui sont devenues la marque de tous les grands modèles de langage ne montrent aucun signe d'élimination, ce qui pourrait s'avérer problématique pour toute utilisation où la fiabilité est vitale.

Dans un article de blog annonçant le nouveau modèle, les patrons de Google Sundar Pichai, Demis Hassabis et Koray Kavukcuoglu écrivent que Gemini 3 a un « raisonnement de niveau doctorat », une expression que le concurrent OpenAI a également utilisée lors de l'annonce de son modèle GPT-5. Pour preuve, ils énumèrent les résultats de plusieurs tests conçus pour tester les connaissances « de niveau universitaire », tels que le dernier examen de l'humanité, un ensemble de 2 500 questions de niveau recherche en mathématiques, sciences et sciences humaines. Gemini 3 a obtenu un score de 37,5 % à ce test, surclassant le précédent détenteur du record, une version du GPT-5 d'OpenAI, qui a obtenu un score de 26,5 %.

De tels sauts peuvent indiquer qu'un modèle est devenu plus performant à certains égards, explique Luc Rocher de l'Université d'Oxford, mais nous devons être prudents dans la manière dont nous interprétons ces résultats. « Si un modèle passe de 80 à 90 pour cent par rapport à un niveau de référence, qu'est-ce que cela signifie ? Cela signifie-t-il qu'un modèle était à 80 pour cent de niveau doctorat et qu'il est maintenant à 90 pour cent de niveau doctorat ? Je pense que c'est assez difficile à comprendre », disent-ils. « Il n'existe aucun chiffre permettant de déterminer si un modèle d'IA est raisonnable, car il s'agit d'une notion très subjective. »

Les tests de référence présentent de nombreuses limites, telles que l'exigence d'une réponse unique ou de réponses à choix multiples pour lesquelles les modèles n'ont pas besoin de montrer leur fonctionnement. « Il est très facile d'utiliser des questions à choix multiples pour noter (les modèles) », explique Rocher, « mais si vous allez chez un médecin, le médecin ne vous évaluera pas avec un choix multiple. Si vous posez la question à un avocat, un avocat ne vous donnera pas de conseils juridiques avec des réponses à choix multiples ». Il existe également un risque que les réponses à ces tests soient aspirées dans les données d’entraînement des modèles d’IA testés, les laissant ainsi tricher.

Le véritable test pour Gemini 3 et les modèles d'IA les plus avancés – et pour savoir si leurs performances seront suffisantes pour justifier les milliards de dollars que des entreprises comme Google et OpenAI dépensent dans les centres de données d'IA – sera de savoir comment les gens utilisent le modèle et dans quelle mesure ils le trouvent fiable, explique Rocher.

Google affirme que les capacités améliorées du modèle lui permettront de mieux produire des logiciels, organiser le courrier électronique et analyser des documents. La société affirme également qu'elle améliorera la recherche Google en complétant les résultats générés par l'IA par des graphiques et des simulations.

Il est probable que les véritables améliorations concerneront les personnes qui utilisent des outils d’IA pour écrire du code de manière autonome, un processus appelé codage agent, explique Adam Mahdi de l’Université d’Oxford. « Je pense que nous atteignons la limite supérieure de ce qu'un chatbot classique peut faire, et les véritables avantages de Gemini 3 Pro (la version standard de Gemini 3) résideront probablement dans des flux de travail plus complexes, potentiellement agents, plutôt que dans le chat quotidien », dit-il.

Les premières réactions en ligne ont inclus des personnes louant les capacités de codage et la capacité de raisonnement du Gemini, mais comme pour toutes les nouvelles versions de modèles, des articles ont également été publiés mettant en évidence des échecs dans l'exécution de tâches apparemment simples, telles que tracer des flèches dessinées à la main pointant vers différentes personnes ou de simples tests de raisonnement visuel.

Google admet, dans les spécifications techniques de Gemini 3, que le modèle continuera à halluciner et à produire des inexactitudes factuelles de temps en temps, à un rythme à peu près comparable à celui des autres principaux modèles d'IA. Le manque d'amélioration dans ce domaine est une grande préoccupation, déclare Artur d'Avila Garcez de City St George's, Université de Londres. « Le problème est que toutes les sociétés d'IA tentent de réduire les hallucinations depuis plus de deux ans, mais il suffit d'une très mauvaise hallucination pour détruire définitivement la confiance dans le système », dit-il.

Les ordinateurs quantiques qui recyclent leurs qubits peuvent limiter les erreurs

Les ordinateurs quantiques qui recyclent leurs qubits peuvent limiter les erreurs

Icebergs in the Arctic

Le réchauffement climatique a atteint même les régions les plus profondes de l’océan Arctique