Le génie mathématique de l'IA fournit des résultats précis à 100 %

Lors de l’Olympiade internationale de mathématiques (OMI) de 2024, un concurrent a si bien réussi qu’il aurait reçu le prix d’argent, à une exception près : il s’agissait d’un système d’IA. C'était la première fois qu'IA obtenait une performance de niveau médaille dans l'histoire de la compétition. Dans un article publié dans la revue Natureles chercheurs détaillent la technologie derrière cette réalisation remarquable.

L'IA est AlphaProof, un programme sophistiqué développé par Google DeepMind qui apprend à résoudre des problèmes mathématiques complexes. La réussite de l'OMI était assez impressionnante, mais ce qui rend AlphaProof vraiment spécial, c'est sa capacité à trouver et à corriger les erreurs. Même si les grands modèles de langage (LLM) peuvent résoudre des problèmes mathématiques, ils ne peuvent souvent pas garantir l'exactitude de leurs solutions. Il se peut qu’il y ait des failles cachées dans leur raisonnement.

AlphaProof est différent car ses réponses sont toujours correctes à 100 %. En effet, il utilise un environnement logiciel spécialisé appelé Lean (développé à l'origine par Microsoft Research) qui agit comme un enseignant strict vérifiant chaque étape logique. Cela signifie que l’ordinateur vérifie lui-même les réponses et que ses conclusions sont donc fiables.

Processus de formation en trois étapes

Entraîner ce puissant système à raisonner à un niveau d’élite impliquait trois étapes de formation différentes. Premièrement, les chercheurs ont exposé AlphaProof à environ 300 milliards de jetons de code général et de texte mathématique pour lui donner une large compréhension de concepts tels que la logique, le langage mathématique et la structure de programmation. Ensuite, il a reçu 300 000 épreuves de mathématiques rédigées par des experts qui étaient déjà dans l'environnement Lean.

La dernière étape était celle où le système apprenait à résoudre les problèmes par lui-même. Il lui a été confié un devoir massif de 80 millions de problèmes mathématiques formels à résoudre. Grâce à l'apprentissage par renforcement (RL), basé sur des essais et des erreurs, AlphaProof a été récompensé pour chaque preuve réussie. En s’attaquant à des problèmes mathématiques à une telle échelle, le système a appris lui-même des stratégies de raisonnement nouvelles et complexes qui allaient au-delà de la copie d’exemples humains.

Pour les problèmes les plus difficiles, AlphaProof a utilisé une technique développée par les chercheurs appelée Test-Time RL (TTRL), qui crée et résout des millions de versions simplifiées du problème cible jusqu'à ce qu'il trouve une solution.

« Notre travail démontre que l'apprentissage à grande échelle à partir d'une expérience concrète produit des agents dotés de stratégies de raisonnement mathématique complexes, ouvrant la voie à un outil d'IA fiable pour la résolution de problèmes mathématiques complexes », ont écrit les chercheurs dans leur article.

En plus de résoudre des problèmes mathématiques apparemment insolubles, AlphaProof pourrait également être utilisé par des mathématiciens pour corriger leur travail et les aider à développer de nouvelles théories.

Écrit pour vous par notre auteur Paul Arnold, édité par Gaby Clark, et vérifié et révisé par Robert Egan, cet article est le résultat d'un travail humain minutieux. Nous comptons sur des lecteurs comme vous pour maintenir en vie le journalisme scientifique indépendant. Si ce reporting vous intéresse, pensez à faire un don (surtout mensuel). Vous obtiendrez un sans publicité compte en guise de remerciement.

Le génie mathématique de l'IA fournit des résultats précis à 100 %

Processus de formation en trois étapes

Une hypothèse classique sur les premiers vertébrés terrestres pourrait être fausse

Une enzyme cérébrale surprise en train de faire quelque chose d’inattendu : elle construit de l’acide polysialique sur elle-même

Comment se déplacent les oiseaux en troupeaux et les bancs de poissons ? Une nouvelle recherche offre une réponse claire

Un tremblement de terre de 2011 a fait rebondir une onde sismique sur le noyau terrestre, poussant le Japon vers l'est.

Les traces d'additifs accélèrent la biodégradation des bioplastiques sans perte de transparence ni de résistance.

Des câbles cryogéniques flexibles pour les réfrigérateurs à dilution pourraient ouvrir la voie à des ordinateurs quantiques pratiques

Alors que l'artiste IA Xania Monet grimpe dans les classements, Victoria Monét est prise dans l'étrange vallée

La demande pour le temps d'observation du JWST atteint un nouveau sommet

Le rôle des e-mails professionnels dans les entreprises

Vivre sans compte bancaire : est-ce vraiment possible en France ?

Compte bancaire ado : quels gestes adopter en tant que parents ?

L’assurance vie est-il un placement sans risque ?

Réussir sa reconversion professionnelle en communication grâce à la formation en ligne

Le coliving : vers une nouvelle manière d’habiter plus écologique

Chevaux, chapeaux et Harriet Sperling : la famille royale perpétue la tradition de la reine Elizabeth au Royal Ascot

Comment « Lesbian Jesus » Hayley Kiyoko a transformé l’hymne queer « Girls Like Girls » en long métrage

Une hypothèse classique sur les premiers vertébrés terrestres pourrait être fausse

Une enzyme cérébrale surprise en train de faire quelque chose d’inattendu : elle construit de l’acide polysialique sur elle-même

Les échos radar d'Europe révèlent des secrets sous la glace

Comment se déplacent les oiseaux en troupeaux et les bancs de poissons ? Une nouvelle recherche offre une réponse claire

Une étude révèle que l'urbanisation dans la région de la Grande Baie de Hong Kong intensifie les risques de chaleur extrême et de fortes précipitations.

La joie de la Ferrari Triumph de Lewis Hamilton : « Celle-ci est autre chose »

Un tremblement de terre de 2011 a fait rebondir une onde sismique sur le noyau terrestre, poussant le Japon vers l'est.

Les traces d'additifs accélèrent la biodégradation des bioplastiques sans perte de transparence ni de résistance.

Des sondes extraterrestres se cachent-elles dans notre jardin ? Une nouvelle étude révèle que nous avons à peine regardé

Des câbles cryogéniques flexibles pour les réfrigérateurs à dilution pourraient ouvrir la voie à des ordinateurs quantiques pratiques

Le plaidoyer climatique mené par les scientifiques montre des effets mitigés, sans renforcement clair de la confiance ni réaction négative

Le prince Harry échange sa couleur pour le match de championnat de la finale de la NBA

Processus de formation en trois étapes

Avant de partir, restons en contact !