Le modèle Gemini 3 de Google maintient le train à la mode de l'IA

Le dernier modèle de Google aurait battu ses concurrents dans plusieurs tests de référence, mais des problèmes de fiabilité suscitent des inquiétudes concernant une éventuelle bulle de l'IA.

Le dernier chatbot de Google, Gemini 3, a fait des progrès significatifs par rapport à une série de tests conçus pour mesurer les progrès de l'IA, selon la société. Ces réalisations suffisent peut-être pour le moment à apaiser les craintes d’éclatement d’une bulle d’IA, mais il est difficile de savoir dans quelle mesure ces scores se traduisent en capacités réelles.

De plus, les inexactitudes factuelles persistantes et les hallucinations qui sont devenues la marque de tous les grands modèles de langage ne montrent aucun signe d'élimination, ce qui pourrait s'avérer problématique pour toute utilisation où la fiabilité est vitale.

Dans un article de blog annonçant le nouveau modèle, les patrons de Google Sundar Pichai, Demis Hassabis et Koray Kavukcuoglu écrivent que Gemini 3 a un « raisonnement de niveau doctorat », une expression que le concurrent OpenAI a également utilisée lors de l'annonce de son modèle GPT-5. Pour preuve, ils énumèrent les résultats de plusieurs tests conçus pour tester les connaissances « de niveau universitaire », tels que le dernier examen de l'humanité, un ensemble de 2 500 questions de niveau recherche en mathématiques, sciences et sciences humaines. Gemini 3 a obtenu un score de 37,5 % à ce test, surclassant le précédent détenteur du record, une version du GPT-5 d'OpenAI, qui a obtenu un score de 26,5 %.

De tels sauts peuvent indiquer qu'un modèle est devenu plus performant à certains égards, explique Luc Rocher de l'Université d'Oxford, mais nous devons être prudents dans la manière dont nous interprétons ces résultats. « Si un modèle passe de 80 à 90 pour cent par rapport à un niveau de référence, qu'est-ce que cela signifie ? Cela signifie-t-il qu'un modèle était à 80 pour cent de niveau doctorat et qu'il est maintenant à 90 pour cent de niveau doctorat ? Je pense que c'est assez difficile à comprendre », disent-ils. « Il n'existe aucun chiffre permettant de déterminer si un modèle d'IA est raisonnable, car il s'agit d'une notion très subjective. »

Les tests de référence présentent de nombreuses limites, telles que l'exigence d'une réponse unique ou de réponses à choix multiples pour lesquelles les modèles n'ont pas besoin de montrer leur fonctionnement. « Il est très facile d'utiliser des questions à choix multiples pour noter (les modèles) », explique Rocher, « mais si vous allez chez un médecin, le médecin ne vous évaluera pas avec un choix multiple. Si vous posez la question à un avocat, un avocat ne vous donnera pas de conseils juridiques avec des réponses à choix multiples ». Il existe également un risque que les réponses à ces tests soient aspirées dans les données d’entraînement des modèles d’IA testés, les laissant ainsi tricher.

Le véritable test pour Gemini 3 et les modèles d'IA les plus avancés – et pour savoir si leurs performances seront suffisantes pour justifier les milliards de dollars que des entreprises comme Google et OpenAI dépensent dans les centres de données d'IA – sera de savoir comment les gens utilisent le modèle et dans quelle mesure ils le trouvent fiable, explique Rocher.

Google affirme que les capacités améliorées du modèle lui permettront de mieux produire des logiciels, organiser le courrier électronique et analyser des documents. La société affirme également qu'elle améliorera la recherche Google en complétant les résultats générés par l'IA par des graphiques et des simulations.

Il est probable que les véritables améliorations concerneront les personnes qui utilisent des outils d’IA pour écrire du code de manière autonome, un processus appelé codage agent, explique Adam Mahdi de l’Université d’Oxford. « Je pense que nous atteignons la limite supérieure de ce qu'un chatbot classique peut faire, et les véritables avantages de Gemini 3 Pro (la version standard de Gemini 3) résideront probablement dans des flux de travail plus complexes, potentiellement agents, plutôt que dans le chat quotidien », dit-il.

Les premières réactions en ligne ont inclus des personnes louant les capacités de codage et la capacité de raisonnement du Gemini, mais comme pour toutes les nouvelles versions de modèles, des articles ont également été publiés mettant en évidence des échecs dans l'exécution de tâches apparemment simples, telles que tracer des flèches dessinées à la main pointant vers différentes personnes ou de simples tests de raisonnement visuel.

Google admet, dans les spécifications techniques de Gemini 3, que le modèle continuera à halluciner et à produire des inexactitudes factuelles de temps en temps, à un rythme à peu près comparable à celui des autres principaux modèles d'IA. Le manque d'amélioration dans ce domaine est une grande préoccupation, déclare Artur d'Avila Garcez de City St George's, Université de Londres. « Le problème est que toutes les sociétés d'IA tentent de réduire les hallucinations depuis plus de deux ans, mais il suffit d'une très mauvaise hallucination pour détruire définitivement la confiance dans le système », dit-il.

Le modèle Gemini 3 de Google maintient le train à la mode de l'IA – pour l'instant

Ben Collins de The Onion essaie toujours de mettre la main sur Infowars

Nick Reiner et la création d'une tragédie hollywoodienne moderne : une dépêche en salle d'audience

Je suis allé à Duke avec Justin Fairfax et Cerina Fairfax. Des décennies plus tard, il l'a tuée

Peptides, suppléments et Pentastack : le guide impie du Looksmaxxing

Le roi Charles a rendu Trump « jaloux » avec son grand discours au Congrès

La robe Dior de Melania Trump, une liste d'invités de la Silicon Valley et une semelle Dover : tous les détails du dîner d'État de Trump

Les ordinateurs quantiques qui recyclent leurs qubits peuvent limiter les erreurs

Le réchauffement climatique a atteint même les régions les plus profondes de l’océan Arctique

Le rôle des e-mails professionnels dans les entreprises

Vivre sans compte bancaire : est-ce vraiment possible en France ?

Compte bancaire ado : quels gestes adopter en tant que parents ?

L’assurance vie est-il un placement sans risque ?

Réussir sa reconversion professionnelle en communication grâce à la formation en ligne

Le coliving : vers une nouvelle manière d’habiter plus écologique

Une nouvelle façon de planifier des trajectoires vers des astéroïdes

L'évaporation explosive ouvre de nouvelles possibilités en matière d'impression 3D et d'analyse chimique

À Ground Zero, manifestants et touristes tentent sans succès de saluer le roi Charles et la reine Camilla : « Pèlerinage vers un sanctuaire américain »

Ben Collins de The Onion essaie toujours de mettre la main sur Infowars

Si Newhouse a construit l'une des plus grandes collections d'art au monde. Tobias Meyer veut vous le vendre.

Les peptides n’ont pas fait leurs preuves en tant qu’aides à la santé. La FDA pourrait les libérer de toute façon

La mécanochimie simplifie la synthèse de molécules organiques conductrices difficiles

Un nouveau moteur lithium-plasma réussit un test clé de propulsion sur Mars

Les accélérateurs laser-plasma peuvent préserver la polarisation des ions Hélium-3

Vivre près d’une station-service augmente le risque de cancer chez les enfants, selon une étude

Un monarque « anxieux », une équipe d'assistants et 12 ovations debout : comment le discours historique du roi Charles au Congrès est né

Nick Reiner et la création d'une tragédie hollywoodienne moderne : une dépêche en salle d'audience

L'affaire du meurtre sinistre et troublante de D4vd a envahi Los Angeles

Célébrez le 250e anniversaire de l'Amérique lors d'une nouvelle exposition de fleurs d'État

Avant de partir, restons en contact !