in

Andrew Barto et Richard Sutton remportent le prix de l'entraînement de l'IA pour l'IA

Andrew Barto et Richard Sutton remportent le prix de l'entraînement de l'IA pour l'IA

Le prix Turing, souvent considéré comme le prix Nobel de l'informatique, est allé chez deux informaticiens pour leur travail sur l'apprentissage du renforcement, une technique clé pour former des modèles d'intelligence artificielle

Andrew Barto et Richard Sutton remportent le prix de l'entraînement de l'IA pour l'IA

Richard Sutton et Andrew Barto ont fait des percées clés dans l'apprentissage du renforcement

Andrew Barto et Richard Sutton ont remporté le prix de la Turing 2024, qui est souvent appelé le prix Nobel de l'informatique, pour leur travail fondamental sur des idées en apprentissage automatique qui se sont révélées plus tard cruciales pour le succès de modèles d'intelligence artificielle tels que l'alphago de Google Deepmind.

Barto, qui est maintenant à la retraite et vit à Cape Cod, Massachusetts, ne s'est même pas rendu compte qu'il était nominé pour le prix. «J'ai rejoint un zoom avec certaines personnes et on m'a dit et j'étais juste sidéré», explique Barto. «J'ai été totalement surpris. J'étais totalement sans préparation, ravi de l'honneur, mais je ne savais pas que cela allait arriver. »

La paire partagera le prix de 1 million de dollars pour son travail sur l'apprentissage du renforcement, dans lequel une IA est «récompensée» et «punie» par essais et erreurs pour atteindre un objectif. Cela a été étudié depuis la création de l'IA – par exemple, en 1948, Alan Turing a suggéré pour la première fois un «système de pain de plaisir» pour les machines intelligentes, rappelant les systèmes d'apprentissage du renforcement moderne, mais jusqu'à ce que les années 1980 aient reçu peu d'attention.

Jusqu'à ce point, la recherche sur l'apprentissage automatique était largement axée sur l'IA symbolique, qui implique d'enseigner manuellement à un ordinateur les règles sur la façon d'apprendre. Barto et Sutton, qui était alors l'étudiant de Barto, a commencé à explorer les algorithmes et les théories mathématiques qui pouvaient reproduire l'idée de Turing, en utilisant les réseaux de neurones pour permettre à une IA de déterminer ces règles par elle-même, plutôt que l'approche symbolique qui avait précédemment dominé.

«Quand j'ai commencé, c'était très démodé. Je m'en fichais, car c'était intéressant pour moi », explique Barto. «Non seulement il était à la mode, mais il était considéré comme une impasse à regarder les réseaux de neurones. Il est vraiment surprenant et gratifiant que cela soit arrivé au point où beaucoup de gens travaillent dans la région, améliorant les algorithmes et effectuant des applications, dont beaucoup sont vraiment très bénéfiques. Je suis étonné et heureux de voir cette évolution.

«Ils ont commencé le domaine (de l'apprentissage par renforcement)», explique Chris Watkins à Royal Holloway, Université de Londres. Certains de leurs premiers algorithmes d'apprentissage de renforcement, tels que les modèles de gradient politique, qui fournissent un plan pour que les IS choisissent leurs actions à mesure que leur environnement change, et l'apprentissage par la différence temporelle, qui compare les prédictions à la façon dont une situation se déroule, sont encore largement utilisées aujourd'hui, dit Watkins. Par exemple, ils ont propulsé les percées de l'IA telles que l'alphago et l'alphazer de Google Deepmind, ainsi que des systèmes robotiques avancés tels que les premiers travaux d'Openai pour résoudre le cube d'un Rubik.

L'algorithme de différence temporelle de Barto et Sutton, qui a été inspiré par les théories de la façon dont les animaux ont appris, ont également aidé de façon inattendue les scientifiques à comprendre le système de récompense de la dopamine dans le cerveau. Dans les années 1990, les neuroscientifiques ont réalisé que les neurones des cerveaux de singe ont tiré en réponse à des récompenses inattendues et fonctionnaient exactement comme les prédictions qui faisaient partie des algorithmes de Barto et Sutton. «C'est le meilleur exemple d'idées qui se déplacent entre l'ingénierie et les sciences naturelles», explique Sutton.

Sutton espère que la recherche actuelle de l'intelligence artificielle pourrait s'inspirer davantage du monde naturel. «Nous faisons l'idée évidente qu'un (IA) devrait apprendre de l'expérience, tout comme les animaux apprennent de l'expérience, et cela est toujours négligé», explique Sutton. «Les AIS modernes n'apprennent pas de l'expérience. Ils apprennent d'un tas d'ensembles de données distincts collectés par les gens… Aujourd'hui, nous n'avons toujours pas de machines qui apprendront de leur expérience et formeront une compréhension du monde. C'est toujours la chose évidente qui reste négligée. »

Male chimpanzees embracing

Les chimpanzés et les bonobos soulagent la tension sociale en frottant leurs parties génitales

Wendy Williams a été retirée de NYC Assisté Living Facility

Wendy Williams a été retirée de NYC Assisté Living Facility