Une étude récente du MIT sur le comportement des souris lors de tâches basées sur la récompense a montré que les souris, bien que capables d’apprendre la meilleure stratégie, s’en écartent souvent, ce qui suggère un processus de prise de décision complexe. Cette découverte, réalisée à l’aide d’un nouvel outil d’analyse appelé blockHMM, a des implications potentielles pour la recherche neurologique, notamment pour comprendre des pathologies telles que la schizophrénie et l’autisme.
Dans un jeu simple que les humains réussissent généralement, les souris apprennent également la stratégie gagnante, mais refusent de s’y engager, selon une nouvelle recherche.
Les découvertes en neurosciences, allant de la nature de la mémoire aux traitements contre les maladies, dépendent de la lecture dans l’esprit des souris. Les chercheurs doivent donc vraiment comprendre ce que leur dit le comportement des rongeurs au cours des expériences. Dans une nouvelle étude qui examine l’apprentissage par la récompense, MIT Les chercheurs ont déchiffré certains comportements de souris initialement mystifiants, donnant ainsi de nouvelles idées sur la façon dont les souris pensent et un outil mathématique pour faciliter les recherches futures.
Comprendre les souris dans les expériences d’apprentissage
La tâche que les souris étaient censées maîtriser est simple : tourner une roue à gauche ou à droite pour obtenir une récompense, puis reconnaître quand la direction de la récompense change. Lorsque les personnes neurotypiques jouent à de tels jeux d’« apprentissage inversé », elles en déduisent rapidement l’approche optimale : s’en tenir à la direction qui fonctionne jusqu’à ce que ce ne soit pas le cas, puis changer immédiatement. Les personnes atteintes de schizophrénie ont notamment du mal à accomplir cette tâche. Dans la nouvelle étude en libre accès publiée dans Biologie computationnelle PLOSdes souris ont surpris les scientifiques en montrant que si elles étaient capables d’apprendre la stratégie « gagner-rester, perdre-changer », elles refusaient néanmoins de l’adopter pleinement.
« Ce n’est pas que les souris ne peuvent pas former un modèle basé sur l’inférence de cet environnement – elles le peuvent », explique l’auteur correspondant Mriganka Sur, professeur Newton à l’Institut Picower pour l’apprentissage et la mémoire et au Département des sciences du cerveau et des sciences cognitives (BCS) du MIT. « Ce qui est surprenant, c’est qu’ils ne persistent pas dans cette voie. Même dans un seul bloc du jeu où vous savez que la récompense est de 100 % d’un côté, de temps en temps, ils essaieront l’autre côté.
Explorer les stratégies de prise de décision des souris
Même si le motif de la souris qui s’écarte de la stratégie optimale pourrait être dû à un échec à la conserver en mémoire, explique Nhat Le, auteur principal et étudiant diplômé du Sur Lab, une autre possibilité est que les souris ne s’engagent pas dans la stratégie « gagner, rester, perdre ». « changement » parce qu’ils ne croient pas que leur situation restera stable ou prévisible. Au lieu de cela, ils pourraient s’écarter du régime optimal pour vérifier si les règles ont changé. Après tout, les milieux naturels sont rarement stables ou prévisibles.
«J’aimerais penser que les souris sont plus intelligentes que ce que nous leur attribuons», dit Le.
Mais quelle que soit la raison qui peut amener les souris à mélanger leurs stratégies, ajoute Mehrdad Jazayeri, co-auteur principal, professeur agrégé au BCS et au McGovern Institute for Brain Research, il est important que les chercheurs reconnaissent qu’ils le font et soient en mesure de dire quand et comment ils choisissent une stratégie ou une autre.
Analyser le comportement des souris avec de nouvelles méthodes
« Cette étude met en évidence le fait que, contrairement à l’idée reçue, les souris effectuant des tâches de laboratoire n’adoptent pas nécessairement une stratégie stationnaire, et elle propose une approche informatique rigoureuse pour détecter et quantifier de telles non-stationnarités », dit-il. « Cette capacité est importante car lorsque les chercheurs enregistrent l’activité neuronale, leur interprétation des algorithmes et des mécanismes sous-jacents peut être invalide s’ils ne prennent pas en compte les stratégies changeantes des animaux. »
L’équipe de recherche, qui comprend également le co-auteur Murat Yildirim, ancien postdoctorant du laboratoire Sur et maintenant professeur adjoint au Cleveland Clinic Lerner Research Institute, s’attendait initialement à ce que les souris adoptent une stratégie ou une autre. Ils ont simulé les résultats auxquels ils s’attendaient si les souris adoptaient la stratégie optimale consistant à déduire une règle concernant la tâche, ou à vérifier de manière plus aléatoire si les virages à gauche ou à droite étaient récompensés. Le comportement de la souris sur la tâche, même après plusieurs jours, variait considérablement, mais il ne ressemblait jamais aux résultats simulés par une seule stratégie.
À des degrés divers et individuels, les performances de la souris sur la tâche reflétaient une variation selon trois paramètres : la rapidité avec laquelle elles changeaient de direction après le changement de règle, le temps qu’il leur fallait pour passer à la nouvelle direction et leur fidélité à la nouvelle direction. Sur 21 souris, les données brutes représentaient une diversité surprenante de résultats sur une tâche que les humains neurotypiques optimisent uniformément. Mais les souris n’étaient clairement pas impuissantes. Leurs performances moyennes se sont considérablement améliorées au fil du temps, même si elles se sont stabilisées en dessous du niveau optimal.
Dans la tâche, le côté récompensé changeait tous les 15 à 25 tours. L’équipe a réalisé que les souris utilisaient plus d’une stratégie dans chacun de ces « blocs » du jeu, plutôt que de simplement déduire la règle simple et d’optimiser sur la base de cette inférence. Pour déterminer quand les souris employaient cette stratégie ou une autre, l’équipe a exploité un cadre analytique appelé modèle de Markov caché (HMM), qui peut déterminer par ordinateur quand un état invisible produit un résultat par rapport à un autre état invisible. Le compare cela à ce qu’un juge d’une émission de cuisine pourrait faire : déduire quel chef concurrent a préparé quelle version d’un plat en fonction des motifs de chaque assiette de nourriture devant lui.
Avant que l’équipe puisse utiliser un HMM pour déchiffrer les résultats de performances de sa souris, elle a dû l’adapter. Un HMM typique peut s’appliquer aux choix individuels de la souris, mais ici, l’équipe l’a modifié pour expliquer les transitions de choix au cours de blocs entiers. Ils ont baptisé leur modèle modifié le blockHMM. Des simulations informatiques de l’exécution de tâches à l’aide du blockHMM ont montré que l’algorithme est capable de déduire les véritables états cachés d’un agent artificiel. Les auteurs ont ensuite utilisé cette technique pour montrer que les souris mélangeaient constamment plusieurs stratégies, atteignant des niveaux de performance variés.
« Nous avons vérifié que chaque animal exécute un mélange de comportements issus de plusieurs régimes au lieu d’un comportement dans un seul domaine », ont écrit Le et ses co-auteurs. « En effet, 17 souris sur 21 utilisaient une combinaison de modes de comportement faibles, moyens et élevés. »
Une analyse plus approfondie a révélé que les stratégies en cours étaient en effet la stratégie d’inférence de règles « correcte » et une stratégie plus exploratoire cohérente avec des tests aléatoires d’options pour obtenir un retour tour par tour.
Orientations futures de la recherche
Maintenant que les chercheurs ont décodé l’approche particulière adoptée par les souris pour inverser l’apprentissage, ils envisagent d’examiner plus en profondeur le cerveau pour comprendre quelles régions et circuits cérébraux sont impliqués. En observant l’activité des cellules cérébrales pendant la tâche, ils espèrent discerner ce qui sous-tend les décisions prises par les souris pour changer de stratégie.
En examinant en détail les circuits d’apprentissage par inversion, dit Sur, il est possible que l’équipe obtienne des informations qui pourraient aider à expliquer pourquoi les personnes atteintes de schizophrénie présentent des performances réduites dans les tâches d’apprentissage par inversion. Sur a ajouté que certaines personnes atteintes de troubles du spectre autistique persistent également avec des comportements nouvellement non récompensés plus longtemps que les personnes neurotypiques, de sorte que son laboratoire gardera également ce phénomène à l’esprit lors de ses investigations.
Yildirim souhaite également examiner les liens cliniques potentiels.
« Ce paradigme d’apprentissage inversé me fascine puisque je souhaite l’utiliser dans mon laboratoire avec divers modèles précliniques de troubles neurologiques », dit-il. « La prochaine étape pour nous consiste à déterminer les mécanismes cérébraux qui sous-tendent ces différences dans les stratégies comportementales et si nous pouvons manipuler ces stratégies. »
Le financement de l’étude provenait du Instituts nationaux de la santéle Bureau de recherche de l’Armée, un prix Paul et Lilah Newton pour la recherche en sciences du cerveau, la Massachusetts Life Sciences Initiative, le Picower Institute for Learning and Memory et la Fondation JPB.


