in

Les principaux modèles d'IA échouent un nouveau test de l'intelligence générale artificielle

Les principaux modèles d'IA échouent un nouveau test de l'intelligence générale artificielle

Un nouveau test de capacités d'IA se compose de puzzles que les humains sont capables de résoudre sans trop de problèmes, mais avec lesquels tous les principaux modèles d'IA ont du mal. Pour améliorer et passer le test, les sociétés d'IA devront équilibrer les capacités de résolution de problèmes avec un coût.

Les principaux modèles d'IA échouent un nouveau test de l'intelligence générale artificielle

La référence ARC-AGI-2 est conçue pour être un test difficile pour les modèles d'IA

Les modèles d'IA les plus sophistiqués qui existent aujourd'hui ont mal obtenu une nouvelle référence conçue pour mesurer leurs progrès vers l'intelligence générale artificielle (AGI) – et le pouvoir informatique de force brute ne sera pas suffisant pour s'améliorer, car les évaluateurs prennent maintenant en compte le coût de la gestion du modèle.

Il existe de nombreuses définitions concurrentes de l'AGI, mais il est généralement considéré comme référé à une IA qui peut effectuer n'importe quelle tâche cognitive que les humains peuvent faire. Pour mesurer cela, l'Arc Prize Foundation a précédemment lancé un test de capacités de raisonnement appelé ARC-AGI-1. En décembre dernier, Openai a annoncé que son modèle O3 avait fortement marqué le test, ce qui a conduit certains à demander si la société était sur le point d'atteindre AGI.

Mais maintenant, un nouveau test, ARC-AGI-2, a soulevé la barre. Il est assez difficile qu'aucun système d'IA actuel sur le marché ne puisse atteindre plus d'un score à un chiffre sur 100 au test, tandis que chaque question a été résolue par au moins deux humains dans moins de deux tentatives.

Dans un article de blog annonçant ARC-AGI-2, le président de l'ARC, Greg Kamradt, a déclaré que la nouvelle référence était tenue de tester différentes compétences de l'itération précédente. « Pour le battre, vous devez démontrer à la fois un niveau élevé d'adaptabilité et de grande efficacité », a-t-il écrit.

La référence ARC-AGI-2 diffère des autres tests de référence en IA en ce qu'il se concentre sur les capacités des modèles d'IA à effectuer des tâches simplistes – telles que la réplication des changements dans une nouvelle image basée sur des exemples passés d'interprétation symbolique – plutôt que sur leur capacité à faire correspondre les performances de doctorat du monde. Les modèles actuels sont bons dans «Deep Learning», que Arc-AGI-1 a mesuré, mais ne sont pas aussi bons dans les tâches apparemment plus simples, qui nécessitent une pensée et une interaction plus difficiles, dans ARC-AGI-2. Le modèle O3-bas d'OpenAI, par exemple, marque 75,7% sur ARC-AGI-1, mais seulement 4% sur ARC-AGI-2.

La référence ajoute également une nouvelle dimension à la mesure des capacités d'une IA, en examinant son efficacité de résolution de problèmes, telle que mesurée par le coût requis pour effectuer une tâche. Par exemple, alors qu'Arc a payé à ses testeurs humains 17 $ par tâche, il estime que O3-Low coûte ouverte 200 $ en frais pour le même travail.

«Je pense que la nouvelle itération d'Arc-Agi se concentrant désormais sur l'équilibrage des performances avec l'efficacité est un grand pas vers une évaluation plus réaliste des modèles d'IA», explique Joseph Imperial à l'Université de Bath, au Royaume-Uni. «C'est un signe que nous passons des tests d'évaluation unidimensionnels qui se concentrent uniquement sur les performances, mais envisageant également une puissance moins de calcul.»

Tout modèle capable de passer ARC-AGI-2 devrait non seulement être très compétent, mais aussi plus petit et léger, dit Imperial – l'efficacité du modèle étant un élément clé de la nouvelle référence. Cela pourrait aider à répondre aux préoccupations que les modèles d'IA deviennent plus à forte intensité d'énergie Parfois, au point de gaspillage – pour obtenir des résultats toujours plus grands.

Cependant, tout le monde n'est pas convaincu que la nouvelle mesure est bénéfique. «L'ensemble de celle-ci en testant l'intelligence n'est pas le bon cadrage», explique Catherine Flick à l'Université de Staffordshire, au Royaume-Uni. Au lieu de cela, elle dit que ces repères évaluent simplement la capacité d'une IA à accomplir une seule tâche ou un ensemble de tâches, qui est ensuite extrapolée pour signifier des capacités générales à travers une série de tâches.

Bien fonctionner sur ces repères ne devrait pas être considéré comme un moment majeur envers AGI, dit Flick: «Vous voyez que les médias reprennent que ces modèles passent ces tests d'intelligence de niveau humain, où ils ne sont pas en fait; ce qu'ils font est vraiment de répondre avec précision à une invite particulière.»

Et que se passe-t-il exactement si ou quand ARC-AGI-2 est passé est une autre question – aurons-nous besoin d'une autre référence? «S'ils devaient développer ARC-AGI-3, je suppose qu'ils ajouteraient un autre axe dans le graphique indiquant (le) nombre minimum d'humains – qu'il soit expert ou non – il faudrait pour résoudre les tâches, en plus des performances et de l'efficacité», explique Imperial. En d'autres termes, il est peu probable que le débat sur AGI soit bientôt réglé.

Foie gras fabriqué sans alimentation en force grâce au mimétisme moléculaire

Foie gras fabriqué sans alimentation en force grâce au mimétisme moléculaire

Exclusif: un juré du premier procès de meurtre de Karen Read a rejoint son équipe de défense

Exclusif: un juré du premier procès de meurtre de Karen Read a rejoint son équipe de défense