Efficacité 100 fois supérieure : le système d'apprentissage automatique du MIT basé sur la lumière pourrait produire de grands modèles de langage plus puissants

Interprétation artistique d’un système informatique basé sur la lumière qui pourrait relancer la puissance des programmes d’apprentissage automatique comme ChatGPT. Les sections bleues représentent les lasers à l’échelle micronique, clés de la technologie. Crédit : Ella Maru Studio

MIT Le système démontre une amélioration de plus de 100 fois de l’efficacité énergétique et une amélioration de 25 fois de la densité de calcul par rapport aux systèmes actuels.

ChatGPT a fait la une des journaux du monde entier grâce à sa capacité à rédiger des essais, des e-mails et du code informatique en fonction de quelques invites d’un utilisateur. Aujourd’hui, une équipe dirigée par le MIT signale un système qui pourrait conduire à des programmes d’apprentissage automatique plusieurs ordres de grandeur plus puissants que celui derrière ChatGPT. Le système qu’ils ont développé pourrait également utiliser plusieurs ordres de grandeur en moins d’énergie que les superordinateurs de pointe derrière les modèles d’apprentissage automatique d’aujourd’hui.

Dans un récent numéro de Photonique naturelle, les chercheurs rapportent la première démonstration expérimentale du nouveau système, qui effectue ses calculs sur la base du mouvement de la lumière, plutôt que des électrons, à l’aide de centaines de lasers à l’échelle du micron. Avec le nouveau système, l’équipe rapporte une amélioration de plus de 100 fois de l’efficacité énergétique et une amélioration de 25 fois de la densité de calcul, une mesure de la puissance d’un système, par rapport aux ordinateurs numériques de pointe pour apprentissage automatique.

Vers le futur

Dans le document, l’équipe cite également « plusieurs ordres de grandeur supplémentaires pour des améliorations futures ». En conséquence, poursuivent les auteurs, la technique « ouvre la voie aux processeurs optoélectroniques à grande échelle pour accélérer les tâches d’apprentissage automatique des centres de données aux appareils de périphérie décentralisés ». En d’autres termes, les téléphones portables et autres petits appareils pourraient devenir capables d’exécuter des programmes qui ne peuvent actuellement être exécutés que dans les grands centres de données.

De plus, étant donné que les composants du système peuvent être créés à l’aide de processus de fabrication déjà utilisés aujourd’hui, « nous prévoyons qu’il pourra être mis à l’échelle pour un usage commercial dans quelques années. Par exemple, les réseaux laser impliqués sont largement utilisés dans l’identification faciale des téléphones portables et la communication de données », explique Zaijun Chen, premier auteur, qui a mené les travaux alors qu’il était postdoctorant au MIT au Laboratoire de recherche en électronique (RLE) et est maintenant assistant. professeur à l’Université de Californie du Sud.

Selon Dirk Englund, professeur agrégé au département de génie électrique et d’informatique du MIT et responsable des travaux, « ChatGPT est limité dans sa taille par la puissance des superordinateurs d’aujourd’hui. Il n’est tout simplement pas économiquement viable de former des modèles beaucoup plus gros. Notre nouvelle technologie pourrait permettre de passer directement à des modèles d’apprentissage automatique qui autrement ne seraient pas accessibles dans un avenir proche.

Il poursuit : « Nous ne savons pas quelles seront les capacités du ChatGPT de nouvelle génération s’il est 100 fois plus puissant, mais c’est le régime de découverte que ce type de technologie peut permettre. » Englund est également chef du laboratoire de photonique quantique du MIT et est affilié au RLE et au laboratoire de recherche sur les matériaux.

Un rythme de progrès

Le travail actuel est la dernière réalisation d’une série de progrès réalisés au cours des dernières années par Englund et bon nombre de ses collègues. Par exemple, en 2019, une équipe d’Englund a rendu compte des travaux théoriques qui ont conduit à la démonstration actuelle. Le premier auteur de cet article, Ryan Hamerly, maintenant chez RLE et NTT Research Inc., est également l’auteur de l’article actuel.

Coauteurs supplémentaires du courant Photonique naturelle les articles sont Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein et Lamia Ateshian, tous de RLE ; et Tobias Heuser, Niels Heermeier, James A. Lott et Stephan Reitzensttein de la Technische Universitat Berlin.

Les réseaux de neurones profonds (DNN) comme celui derrière ChatGPT sont basés sur d’énormes modèles d’apprentissage automatique qui simulent la façon dont le cerveau traite les informations. Cependant, les technologies numériques derrière les DNN actuels atteignent leurs limites alors même que le domaine de l’apprentissage automatique se développe. De plus, ils nécessitent d’énormes quantités d’énergie et sont largement confinés aux grands centres de données. Cela motive le développement de nouveaux paradigmes informatiques.

Réseaux de neurones optiques et leur potentiel

Utiliser la lumière plutôt que les électrons pour exécuter les calculs DNN pourrait permettre de surmonter les goulots d’étranglement actuels. Les calculs utilisant l’optique, par exemple, ont le potentiel de consommer beaucoup moins d’énergie que ceux basés sur l’électronique. De plus, avec l’optique, « vous pouvez avoir des bandes passantes beaucoup plus grandes » ou calculer des densités, explique Chen. La lumière peut transférer beaucoup plus d’informations sur une zone beaucoup plus petite.

Cependant, les réseaux de neurones optiques (ONN) actuels présentent des défis importants. Par exemple, ils consomment beaucoup d’énergie parce qu’ils ne parviennent pas à convertir en lumière les données entrantes basées sur l’énergie électrique. De plus, les composants impliqués sont volumineux et occupent un espace important. bien que les ONN soient assez bons pour les calculs linéaires comme l’addition, ils ne sont pas bons pour les calculs non linéaires comme la multiplication et les instructions « si ».

Dans les travaux actuels, les chercheurs introduisent une architecture compacte qui, pour la première fois, résout tous ces défis et deux autres simultanément. Cette architecture est basée sur des réseaux de pointe de lasers à émission de surface verticale (VCSEL), une technologie relativement nouvelle utilisée dans des applications telles que la télédétection lidar et l’impression laser. Les VCEL particulières signalées dans le Photonique naturelle Les articles ont été développés par le groupe Reitzenstein de la Technische Universitat Berlin. « Il s’agissait d’un projet collaboratif qui n’aurait pas été possible sans eux », explique Hamerly.

Logan Wright, professeur adjoint à Université de Yale qui n’était pas impliqué dans la recherche actuelle, commente : « Les travaux de Zaijun Chen et al. est une source d’inspiration, qui m’encourage, ainsi que probablement de nombreux autres chercheurs dans ce domaine, à penser que les systèmes basés sur des réseaux VCSEL modulés pourraient constituer une voie viable vers des réseaux neuronaux optiques à grande échelle et à haut débit. Bien sûr, l’état de la technique est encore loin de l’échelle et du coût qui seraient nécessaires pour des dispositifs pratiquement utiles, mais je suis optimiste quant à ce qui peut être réalisé dans les prochaines années, surtout compte tenu du potentiel d’accélération de ces systèmes. les systèmes d’IA à très grande échelle et très coûteux comme ceux utilisés dans les systèmes textuels « GPT » populaires comme ChatGPT.

Chen, Hamerly et Englund ont déposé une demande de brevet pour leurs travaux, qui ont été parrainés par le Bureau de recherche de l’armée américaine, NTT Research, le programme de bourses d’études supérieures en sciences et ingénierie de la défense nationale des États-Unis, la National Science Foundation des États-Unis, l’Institut des sciences naturelles et de l’ingénierie. Conseil de recherches du Canada et Fondation Volkswagen.

Efficacité 100 fois supérieure : le système d’apprentissage automatique du MIT basé sur la lumière pourrait produire de grands modèles de langage plus puissants

Vers le futur

Un rythme de progrès

Réseaux de neurones optiques et leur potentiel

Même des niveaux de pollution atmosphérique « sûrs » peuvent affecter la santé cardiaque

Une expérience bouleverse les croyances sur le comportement réel des électrons dans la matière dense et chaude

Le « petit cerveau » pourrait donner un grand coup de pouce à l’esprit vieillissant

Un modèle minimal de la façon dont une cellule prend forme de l'intérieur

Les concombres de mer abritent des tissus « zombies » qui ne mourront pas

Les vibrations chaotiques des polymères peuvent débloquer des isolants thermiques plus solides et flexibles

La Terre Sombre Décryptée : Les anciens Amazoniens ont intentionnellement créé une « Terre Sombre » fertile

Le Salon des exclus de Bari Weiss n’est que le début de la presse libre

Le rôle des e-mails professionnels dans les entreprises

Vivre sans compte bancaire : est-ce vraiment possible en France ?

Compte bancaire ado : quels gestes adopter en tant que parents ?

L’assurance vie est-il un placement sans risque ?

Réussir sa reconversion professionnelle en communication grâce à la formation en ligne

Le coliving : vers une nouvelle manière d’habiter plus écologique

Le prince William fête ses 44 ans : Kate Middleton, Prince George, la princesse Charlotte et le prince Louis postent un émouvant hommage

Même des niveaux de pollution atmosphérique « sûrs » peuvent affecter la santé cardiaque

Titan et Pluton présentent la même caractéristique spectrale mystérieuse, et les chercheurs ne parviennent pas à déterminer son origine

Une expérience bouleverse les croyances sur le comportement réel des électrons dans la matière dense et chaude

La boue ancienne extraite de la glace de l'Antarctique contient des indices sur la future élévation du niveau de la mer

La K-Pop est le moteur de la culture mondiale. Et Lisa est un nouveau type de superstar

Le « petit cerveau » pourrait donner un grand coup de pouce à l’esprit vieillissant

Test sur le terrain dans le désert avec un prototype de rover avancé de la NASA

Un modèle minimal de la façon dont une cellule prend forme de l'intérieur

Les vagues de chaleur marines dans l'Arctique se multiplient depuis les années 1980, avec un événement record d'une durée de 480 jours

L’enquête sur le prétendu stratagème de vente de dossiers médicaux de Kate Middleton se termine par une « mise en garde formelle »

Les concombres de mer abritent des tissus « zombies » qui ne mourront pas

Les vibrations chaotiques des polymères peuvent débloquer des isolants thermiques plus solides et flexibles

Vers le futur

Un rythme de progrès

Réseaux de neurones optiques et leur potentiel

Avant de partir, restons en contact !