in

Un regard sous le capot des modèles d'IA de DeepSeek ne fournit pas toutes les réponses

Une sortie d'un modèle DeepSeek montrant comment il "pense"

Cela fait presque un an que DeepSeek a fait sensation en matière d'IA.

En janvier, la société chinoise a signalé que l’un de ses grands modèles de langage rivalisait avec son homologue OpenAI en termes de tests de mathématiques et de codage conçus pour évaluer les capacités de résolution de problèmes en plusieurs étapes, ou ce que le domaine de l’IA appelle le « raisonnement ». L'affirmation la plus répandue de DeepSeek était qu'elle avait atteint ces performances tout en maintenant des coûts bas. L'implication : les améliorations du modèle d'IA ne nécessitent pas toujours une infrastructure informatique massive ou les meilleures puces informatiques, mais pourraient être obtenues grâce à une utilisation efficace d'un matériel moins cher. De nombreuses recherches ont suivi cette annonce qui a fait la une des journaux, toutes essayant de mieux comprendre les méthodes de raisonnement des modèles DeepSeek, de les améliorer et même de les surpasser.

Ce qui rend les modèles DeepSeek intrigants n’est pas seulement leur prix – gratuit à utiliser – mais aussi la manière dont ils sont formés. Au lieu d'entraîner les modèles pour résoudre des problèmes difficiles à l'aide de milliers de points de données étiquetés par des humains, les modèles R1-Zero et R1 de DeepSeek ont ​​été formés exclusivement ou de manière significative par essais et erreurs, sans qu'on leur indique explicitement comment trouver la solution, un peu comme un humain complétant un puzzle. Lorsqu'une réponse était correcte, le modèle recevait une récompense pour ses actions, c'est pourquoi les informaticiens appellent cette méthode l'apprentissage par renforcement.

Pour les chercheurs cherchant à améliorer les capacités de raisonnement des grands modèles de langage, ou LLM, les résultats de DeepSeek étaient inspirants, surtout s'il pouvait fonctionner aussi bien que les modèles d'OpenAI mais être entraîné à une fraction du coût. Et il y a eu un autre développement encourageant : DeepSeek a proposé que ses modèles soient interrogés par des scientifiques extérieurs à l'entreprise pour voir si les résultats étaient vrais en vue d'une publication dans Nature– une rareté pour une entreprise d’IA. Ce qui a peut-être le plus enthousiasmé les chercheurs était de voir si la formation et les résultats de ce modèle pouvaient nous donner un aperçu de la « boîte noire » des modèles d'IA.

En soumettant ses modèles au processus d'examen par les pairs, « DeepSeek a essentiellement montré sa main », afin que d'autres puissent vérifier et améliorer les algorithmes, explique Subbarao Kambhampati, un informaticien de l'Arizona State University à Tempe qui a examiné par les pairs le 17 septembre de DeepSeek. Nature papier. Bien qu’il affirme qu’il est prématuré de tirer des conclusions sur ce qui se passe sous le capot d’un modèle DeepSeek, « c’est ainsi que la science est censée fonctionner ».

Pourquoi la formation avec apprentissage par renforcement coûte moins cher

Plus la formation en puissance de calcul demande, plus elle coûte cher. Et enseigner aux LLM à décomposer et à résoudre des tâches en plusieurs étapes telles que des ensembles de problèmes issus de concours de mathématiques s'est avéré coûteux, avec différents degrés de réussite. Au cours de la formation, les scientifiques indiquent généralement au modèle quelle est la bonne réponse et les étapes à suivre pour atteindre cette réponse. Cela représente beaucoup de données annotées par l'homme et beaucoup de puissance de calcul.

Vous n’en avez pas besoin pour l’apprentissage par renforcement. Plutôt que de superviser chaque mouvement du LLM, les chercheurs se contentent de dire au LLM à quel point il a bien fonctionné, explique Emma Jordan, chercheuse en apprentissage par renforcement, de l'Université de Pittsburgh.

Comment l'apprentissage par renforcement a façonné le modèle de DeepSeek

Les chercheurs ont déjà utilisé l’apprentissage par renforcement pour former les LLM à générer du texte de chatbot utile et à éviter les réponses toxiques, où la récompense est basée sur son alignement sur le comportement préféré. Mais s'aligner sur les préférences humaines en matière de lecture constitue un cas d'utilisation imparfait pour une formation basée sur les récompenses en raison de la nature subjective de cet exercice, explique Jordan. En revanche, l’apprentissage par renforcement peut briller lorsqu’il est appliqué à des problèmes de mathématiques et de code, qui ont une réponse vérifiable.

celui de septembre Nature La publication détaille ce qui a permis à l'apprentissage par renforcement de fonctionner pour les modèles de DeepSeek. Pendant la formation, les modèles essaient différentes approches pour résoudre des problèmes de mathématiques et de code, recevant une récompense de 1 s'ils sont corrects ou de zéro dans le cas contraire. L’espoir est que, grâce au processus d’essais et de récompenses, le modèle apprendra les étapes intermédiaires, et donc les schémas de raisonnement, nécessaires pour résoudre le problème.

Dans la phase de formation, le modèle DeepSeek ne résout pas réellement le problème complètement, explique Kambhampati. Au lieu de cela, le modèle fait, disons, 15 suppositions. « Et si l'un des 15 est correct, alors fondamentalement, pour ceux qui sont corrects, [the model] est récompensé », dit Kambhampati. « Et ceux qui ne sont pas corrects ne recevront aucune récompense. »

Mais cette structure de récompense ne garantit pas qu’un problème sera résolu. « Si les 15 suppositions sont fausses, alors vous n'obtenez pratiquement aucune récompense. Il n'y a aucun signal d'apprentissage », explique Kambhampati.

Pour que la structure de récompense porte ses fruits, DeepSeek devait avoir un devineur décent comme point de départ. Heureusement, le modèle de base de DeepSeek, V3 Base, avait déjà de meilleures précisions que les anciens LLM tels que le GPT-4o d'OpenAI sur les problèmes de raisonnement. En effet, cela a permis aux modèles de mieux deviner. Si le modèle de base est déjà suffisamment bon pour que la bonne réponse figure parmi les 15 réponses les plus probables qu'il propose pour un problème, au cours du processus d'apprentissage, ses performances s'améliorent de sorte que la bonne réponse soit sa supposition la plus probable, explique Kambhampati.

Il y a une mise en garde : V3 Base aurait pu être doué pour deviner, car les chercheurs de DeepSeek ont ​​récupéré des données accessibles au public sur Internet pour les entraîner. Les chercheurs écrivent dans l'article Nature que certaines de ces données de formation auraient pu inclure des sorties de modèles OpenAI ou autres, mais involontairement. Ils ont également formé V3 Base de manière supervisée traditionnelle, de sorte qu'une partie de ce feedback, et pas seulement l'apprentissage par renforcement, pourrait être intégrée à n'importe quel modèle émergeant de V3 Base. DeepSeek n'a pas répondu à SN» demandes de commentaires.

Lors de la formation de V3 Base pour produire DeepSeek-R1-Zero, les chercheurs ont utilisé deux types de récompense : la précision et le format. Dans le cas de problèmes mathématiques, vérifier l’exactitude d’un résultat est simple ; l'algorithme de récompense vérifie le résultat du LLM par rapport à la bonne réponse et donne le feedback approprié. Les chercheurs de DeepSeek utilisent des cas de test issus de concours pour évaluer le code. Les récompenses de format incitent le modèle à décrire comment il est arrivé à une réponse et à étiqueter cette description avant de fournir la solution finale.

Concernant les problèmes de référence en mathématiques et en code, DeepSeek-R1-Zero a obtenu de meilleurs résultats que les humains sélectionnés pour l'étude de référence, mais le modèle présentait toujours des problèmes. Par exemple, le fait d'être formé sur des données en anglais et en chinois a conduit à des résultats mélangeant les langues, ce qui les rendait difficiles à déchiffrer. En conséquence, les chercheurs de DeepSeek sont revenus en arrière et ont mis en œuvre une étape supplémentaire d’apprentissage par renforcement dans le pipeline de formation, avec une récompense pour la cohérence linguistique afin d’éviter toute confusion. DeepSeek-R1 est sorti, un successeur de R1-Zero.

Les LLM peuvent-ils raisonner comme les humains maintenant ?

Il peut sembler que si la récompense amène le modèle à la bonne réponse, il doit prendre des décisions raisonnées dans ses réponses aux récompenses. Et les chercheurs de DeepSeek rapportent que les résultats de R1-Zero suggèrent qu'il utilise des stratégies de raisonnement. Mais Kambhampati dit que nous ne comprenons pas vraiment comment les modèles fonctionnent en interne et que leurs résultats ont été trop anthropomorphisés pour impliquer qu'ils réfléchissent. Pendant ce temps, interroger le fonctionnement interne du « raisonnement » des modèles d’IA reste un problème de recherche actif.

Le format de récompense de DeepSeek encourage une structure spécifique pour les réponses de son modèle. Avant que le modèle ne produise la réponse finale, il génère son « processus de pensée » sur un ton humain, en notant où il pourrait vérifier une étape intermédiaire, ce qui pourrait faire croire à l'utilisateur que ses réponses reflètent ses étapes de traitement.

Les chercheurs de DeepSeek affirment que le résultat du « processus de pensée » du modèle inclut des termes tels que « aha moment » et « attendre » à une fréquence plus élevée à mesure que la formation progresse, indiquant l'émergence d'un comportement d'autoréflexion et de raisonnement. En outre, ils affirment que le modèle génère davantage de « jetons de réflexion » (caractères, mots, nombres ou symboles produits au fur et à mesure que le modèle traite un problème) pour les problèmes complexes et moins pour les problèmes faciles, ce qui suggère qu'il apprend à consacrer plus de temps de réflexion aux problèmes plus difficiles.

Mais Kambhampati se demande si les « jetons de réflexion », même lorsqu’ils aident clairement le modèle, fournissent à l’utilisateur final un aperçu réel de ses étapes de traitement. Il ne pense pas que les jetons correspondent à une solution étape par étape du problème. Dans le processus de formation de DeepSeek-R1-Zero, chaque jeton ayant contribué à une réponse correcte est récompensé, même si certaines étapes intermédiaires suivies par le modèle pour parvenir à la bonne réponse étaient des tangentes ou des impasses. Ce modèle de récompense basé sur les résultats n'est pas conçu pour récompenser uniquement la partie productive du raisonnement du modèle afin de l'encourager à se produire plus souvent, dit-il. « Il est donc étrange de former le système uniquement sur le modèle de récompense des résultats et de se leurrer en pensant qu'il a appris quelque chose sur le processus. »

De plus, les performances des modèles d'IA mesurées sur des critères tels que l'ensemble de données de problèmes d'un prestigieux concours de mathématiques sont connues pour être des indicateurs inadéquats de la capacité du modèle à résoudre des problèmes. « En général, il est impossible de savoir si un système raisonne réellement pour résoudre le problème de raisonnement ou utilise la mémoire pour résoudre le problème de raisonnement », explique Kambhampati. Ainsi, un benchmark statique, avec un ensemble fixe de problèmes, ne peut pas transmettre avec précision la capacité de raisonnement d'un modèle puisque le modèle aurait pu mémoriser les bonnes réponses lors de son entraînement sur des données Internet récupérées, dit-il.

Les chercheurs en IA semblent comprendre que lorsqu'ils disent que les LLM raisonnent, ils veulent dire qu'ils réussissent bien sur les critères de raisonnement, explique Kambhampati. Mais les profanes pourraient supposer que « si les modèles ont obtenu la bonne réponse, alors ils doivent suivre le bon processus », dit-il. « Réussir selon un benchmark ou utiliser le processus que les humains pourraient utiliser pour réussir dans ce benchmark sont deux choses très différentes. » Un manque de compréhension du « raisonnement » de l’IA et une dépendance excessive à l’égard de tels modèles d’IA pourraient être risqués, conduisant les humains à accepter les décisions de l’IA sans réfléchir de manière critique aux réponses.

Certains chercheurs tentent de mieux comprendre le fonctionnement de ces modèles et les procédures de formation qui insufflent réellement des informations dans le modèle, explique Jordan, dans le but de réduire les risques. Mais pour l’instant, le fonctionnement interne de ces modèles d’IA pour résoudre les problèmes reste une question ouverte.

Les interactions intermoléculaires coopératives régulent l'assemblage de polymères supramoléculaires

Rich Paul et Max Kellerman entrent dans l'arène du podcasting vidéo

Rich Paul et Max Kellerman entrent dans l'arène du podcasting vidéo