MIT Le système démontre une amélioration de plus de 100 fois de l’efficacité énergétique et une amélioration de 25 fois de la densité de calcul par rapport aux systèmes actuels.
ChatGPT a fait la une des journaux du monde entier grâce à sa capacité à rédiger des essais, des e-mails et du code informatique en fonction de quelques invites d’un utilisateur. Aujourd’hui, une équipe dirigée par le MIT signale un système qui pourrait conduire à des programmes d’apprentissage automatique plusieurs ordres de grandeur plus puissants que celui derrière ChatGPT. Le système qu’ils ont développé pourrait également utiliser plusieurs ordres de grandeur en moins d’énergie que les superordinateurs de pointe derrière les modèles d’apprentissage automatique d’aujourd’hui.
Dans un récent numéro de Photonique naturelle, les chercheurs rapportent la première démonstration expérimentale du nouveau système, qui effectue ses calculs sur la base du mouvement de la lumière, plutôt que des électrons, à l’aide de centaines de lasers à l’échelle du micron. Avec le nouveau système, l’équipe rapporte une amélioration de plus de 100 fois de l’efficacité énergétique et une amélioration de 25 fois de la densité de calcul, une mesure de la puissance d’un système, par rapport aux ordinateurs numériques de pointe pour apprentissage automatique.
Vers le futur
Dans le document, l’équipe cite également « plusieurs ordres de grandeur supplémentaires pour des améliorations futures ». En conséquence, poursuivent les auteurs, la technique « ouvre la voie aux processeurs optoélectroniques à grande échelle pour accélérer les tâches d’apprentissage automatique des centres de données aux appareils de périphérie décentralisés ». En d’autres termes, les téléphones portables et autres petits appareils pourraient devenir capables d’exécuter des programmes qui ne peuvent actuellement être exécutés que dans les grands centres de données.
De plus, étant donné que les composants du système peuvent être créés à l’aide de processus de fabrication déjà utilisés aujourd’hui, « nous prévoyons qu’il pourra être mis à l’échelle pour un usage commercial dans quelques années. Par exemple, les réseaux laser impliqués sont largement utilisés dans l’identification faciale des téléphones portables et la communication de données », explique Zaijun Chen, premier auteur, qui a mené les travaux alors qu’il était postdoctorant au MIT au Laboratoire de recherche en électronique (RLE) et est maintenant assistant. professeur à l’Université de Californie du Sud.
Selon Dirk Englund, professeur agrégé au département de génie électrique et d’informatique du MIT et responsable des travaux, « ChatGPT est limité dans sa taille par la puissance des superordinateurs d’aujourd’hui. Il n’est tout simplement pas économiquement viable de former des modèles beaucoup plus gros. Notre nouvelle technologie pourrait permettre de passer directement à des modèles d’apprentissage automatique qui autrement ne seraient pas accessibles dans un avenir proche.
Il poursuit : « Nous ne savons pas quelles seront les capacités du ChatGPT de nouvelle génération s’il est 100 fois plus puissant, mais c’est le régime de découverte que ce type de technologie peut permettre. » Englund est également chef du laboratoire de photonique quantique du MIT et est affilié au RLE et au laboratoire de recherche sur les matériaux.
Un rythme de progrès
Le travail actuel est la dernière réalisation d’une série de progrès réalisés au cours des dernières années par Englund et bon nombre de ses collègues. Par exemple, en 2019, une équipe d’Englund a rendu compte des travaux théoriques qui ont conduit à la démonstration actuelle. Le premier auteur de cet article, Ryan Hamerly, maintenant chez RLE et NTT Research Inc., est également l’auteur de l’article actuel.
Coauteurs supplémentaires du courant Photonique naturelle les articles sont Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein et Lamia Ateshian, tous de RLE ; et Tobias Heuser, Niels Heermeier, James A. Lott et Stephan Reitzensttein de la Technische Universitat Berlin.
Les réseaux de neurones profonds (DNN) comme celui derrière ChatGPT sont basés sur d’énormes modèles d’apprentissage automatique qui simulent la façon dont le cerveau traite les informations. Cependant, les technologies numériques derrière les DNN actuels atteignent leurs limites alors même que le domaine de l’apprentissage automatique se développe. De plus, ils nécessitent d’énormes quantités d’énergie et sont largement confinés aux grands centres de données. Cela motive le développement de nouveaux paradigmes informatiques.
Réseaux de neurones optiques et leur potentiel
Utiliser la lumière plutôt que les électrons pour exécuter les calculs DNN pourrait permettre de surmonter les goulots d’étranglement actuels. Les calculs utilisant l’optique, par exemple, ont le potentiel de consommer beaucoup moins d’énergie que ceux basés sur l’électronique. De plus, avec l’optique, « vous pouvez avoir des bandes passantes beaucoup plus grandes » ou calculer des densités, explique Chen. La lumière peut transférer beaucoup plus d’informations sur une zone beaucoup plus petite.
Cependant, les réseaux de neurones optiques (ONN) actuels présentent des défis importants. Par exemple, ils consomment beaucoup d’énergie parce qu’ils ne parviennent pas à convertir en lumière les données entrantes basées sur l’énergie électrique. De plus, les composants impliqués sont volumineux et occupent un espace important. bien que les ONN soient assez bons pour les calculs linéaires comme l’addition, ils ne sont pas bons pour les calculs non linéaires comme la multiplication et les instructions « si ».
Dans les travaux actuels, les chercheurs introduisent une architecture compacte qui, pour la première fois, résout tous ces défis et deux autres simultanément. Cette architecture est basée sur des réseaux de pointe de lasers à émission de surface verticale (VCSEL), une technologie relativement nouvelle utilisée dans des applications telles que la télédétection lidar et l’impression laser. Les VCEL particulières signalées dans le Photonique naturelle Les articles ont été développés par le groupe Reitzenstein de la Technische Universitat Berlin. « Il s’agissait d’un projet collaboratif qui n’aurait pas été possible sans eux », explique Hamerly.
Logan Wright, professeur adjoint à Université de Yale qui n’était pas impliqué dans la recherche actuelle, commente : « Les travaux de Zaijun Chen et al. est une source d’inspiration, qui m’encourage, ainsi que probablement de nombreux autres chercheurs dans ce domaine, à penser que les systèmes basés sur des réseaux VCSEL modulés pourraient constituer une voie viable vers des réseaux neuronaux optiques à grande échelle et à haut débit. Bien sûr, l’état de la technique est encore loin de l’échelle et du coût qui seraient nécessaires pour des dispositifs pratiquement utiles, mais je suis optimiste quant à ce qui peut être réalisé dans les prochaines années, surtout compte tenu du potentiel d’accélération de ces systèmes. les systèmes d’IA à très grande échelle et très coûteux comme ceux utilisés dans les systèmes textuels « GPT » populaires comme ChatGPT.
Chen, Hamerly et Englund ont déposé une demande de brevet pour leurs travaux, qui ont été parrainés par le Bureau de recherche de l’armée américaine, NTT Research, le programme de bourses d’études supérieures en sciences et ingénierie de la défense nationale des États-Unis, la National Science Foundation des États-Unis, l’Institut des sciences naturelles et de l’ingénierie. Conseil de recherches du Canada et Fondation Volkswagen.