Essaims acoustiques robotiques : haut-parleur intelligent qui change de forme pour un contrôle audio ultime dans n'importe quelle pièce

Des chercheurs de l’Université de Washington ont développé un système de haut-parleurs intelligents innovant qui utilise des « essaims acoustiques » robotisés pour séparer et gérer les sons dans des environnements très fréquentés. Ces microphones à déploiement automatique, alimentés par des algorithmes d’apprentissage en profondeur, peuvent suivre des locuteurs individuels et séparer les conversations qui se chevauchent, même si les voix sont similaires.

Présentation d’un système de haut-parleurs intelligents qui utilise des « essaims acoustiques » robotiques pour identifier et gérer les sons, promettant à la fois un contrôle audio et une confidentialité améliorés dans les environnements occupés.

Dans les réunions virtuelles, il est facile d’empêcher les gens de se parler. Quelqu’un vient de couper le son. Mais pour l’essentiel, cette capacité ne se traduit pas facilement par l’enregistrement de rassemblements en personne. Dans un café animé, il n’y a pas de boutons pour faire taire la table à côté de vous.

La capacité de localiser et de contrôler le son – en isolant par exemple une personne qui parle d’un endroit spécifique dans une pièce bondée – a mis les chercheurs au défi, en particulier sans les repères visuels des caméras.

Sommaire

Percée avec les essaims acoustiques robotiques

Une équipe dirigée par des chercheurs du Université de Washington a développé un haut-parleur intelligent qui change de forme, qui utilise des microphones auto-déployants pour diviser les pièces en zones de parole et suivre les positions des locuteurs individuels. Grâce aux algorithmes d’apprentissage en profondeur de l’équipe, le système permet aux utilisateurs de désactiver certaines zones ou de séparer les conversations simultanées, même si deux personnes adjacentes ont des voix similaires. Comme une flotte de Roombas, chacun d’environ un pouce de diamètre, les microphones se déploient automatiquement depuis, puis reviennent vers, une station de recharge. Cela permet au système d’être déplacé entre les environnements et de se configurer automatiquement. Dans une salle de conférence, par exemple, un tel système pourrait être déployé à la place d’un microphone central, permettant ainsi un meilleur contrôle de l’audio dans la salle.

L’équipe publiera ses conclusions aujourd’hui (21 septembre) dans Communications naturelles.

Haut-parleur intelligent à changement de forme d'essaim acoustique

Une équipe dirigée par des chercheurs de l’Université de Washington a développé un haut-parleur intelligent qui change de forme, qui utilise des microphones auto-déployants pour diviser les pièces en zones de parole et suivre la position de chaque locuteur. Ici, l’essaim de robots est représenté dans sa station de recharge, vers laquelle les robots peuvent revenir automatiquement. Crédit : April Hong/Université de Washington

Les humains contre la technologie

« Si je ferme les yeux et qu’il y a 10 personnes qui parlent dans une pièce, je n’ai aucune idée de qui dit quoi et où elles se trouvent exactement dans la pièce. C’est extrêmement difficile à traiter pour le cerveau humain. Jusqu’à présent, cela a également été difficile pour la technologie », a déclaré le co-auteur principal Malek Itani, doctorant à l’UW à la Paul G. Allen School of Computer Science & Engineering. « Pour la première fois, en utilisant ce que nous appelons un ‘essaim acoustique’ robotique, nous sommes capables de suivre les positions de plusieurs personnes parlant dans une pièce et de séparer leurs discours. »

Les recherches antérieures sur les essaims de robots ont nécessité l’utilisation de caméras aériennes ou intégrées, de projecteurs ou de surfaces spéciales. Le système de l’équipe UW est le premier à distribuer avec précision un essaim de robots en utilisant uniquement le son.

Mécanisme de travail et tests

Le prototype de l’équipe se compose de sept petits robots répartis sur des tables de différentes tailles. Lorsqu’ils quittent leur chargeur, chaque robot émet un son à haute fréquence, comme une chauve-souris naviguant, utilisant cette fréquence et d’autres capteurs pour éviter les obstacles et se déplacer sans tomber de la table. Le déploiement automatique permet aux robots de se placer au maximum précision, permettant un meilleur contrôle du son que si une personne les définissait. Les robots se dispersent le plus loin possible les uns des autres, car des distances plus grandes facilitent la différenciation et la localisation des personnes qui parlent. Les haut-parleurs intelligents grand public d’aujourd’hui disposent de plusieurs microphones, mais regroupés sur le même appareil, ils sont trop proches pour permettre les zones muettes et actives de ce système.

Une équipe dirigée par des chercheurs de l’Université de Washington a développé un haut-parleur intelligent qui change de forme, qui utilise des microphones auto-déployants pour diviser les pièces en zones de parole et suivre les positions des locuteurs individuels. Ici, les doctorants de l’Allen School, Tuochao Chen (au premier plan), Mengyi Shan, Malek Itani et Bandhav Veluri, font une démonstration du système dans une salle de réunion. Crédit : April Hong/Université de Washington

« Si j’ai un microphone à un pied de moi et un autre à deux pieds, ma voix arrivera en premier au microphone qui se trouve à un pied. Si quelqu’un d’autre est plus proche du microphone situé à deux pieds de distance, sa voix y arrivera en premier », a déclaré le co-auteur principal Tuochao Chen, doctorant à l’UW à l’école Allen. « Nous avons développé des réseaux neuronaux qui utilisent ces signaux temporisés pour séparer ce que dit chaque personne et suivre sa position dans un espace. Ainsi, vous pouvez avoir quatre personnes ayant deux conversations, isoler n’importe laquelle des quatre voix et localiser chacune des voix dans une pièce.

L’équipe a testé les robots dans des bureaux, des salons et des cuisines avec des groupes de trois à cinq personnes parlant. Dans tous ces environnements, le système pouvait discerner différentes voix à moins de 50 centimètres les unes des autres 90 % du temps, sans information préalable sur le nombre de locuteurs. Le système était capable de traiter trois secondes d’audio en 1,82 seconde en moyenne – assez rapide pour la diffusion en direct, mais un peu trop long pour les communications en temps réel telles que les appels vidéo.

Potentiel futur et problèmes de confidentialité

Selon les chercheurs, à mesure que la technologie progresse, des essaims acoustiques pourraient être déployés dans les maisons intelligentes pour mieux différencier les personnes qui parlent avec des haut-parleurs intelligents. Cela pourrait potentiellement permettre uniquement aux personnes assises sur un canapé, dans une « zone active », de contrôler vocalement un téléviseur, par exemple.

Les chercheurs prévoient de créer à terme des robots microphones capables de se déplacer dans les pièces, au lieu de se limiter aux tables. L’équipe étudie également si les haut-parleurs peuvent émettre des sons permettant des zones actives et muettes du monde réel, afin que les personnes situées dans différentes parties d’une pièce puissent entendre un son différent. L’étude actuelle constitue une nouvelle étape vers les technologies de science-fiction, telles que le « cône de silence » dans « Get Smart » et « Dune », écrivent les auteurs.

Bien entendu, toute technologie évoquant une comparaison avec des outils d’espionnage fictifs soulèvera des questions de confidentialité. Les chercheurs reconnaissent le potentiel d’utilisation abusive, c’est pourquoi ils ont inclus des garde-fous contre cela : les microphones naviguent avec le son, et non avec une caméra embarquée comme d’autres systèmes similaires. Les robots sont facilement visibles et leurs lumières clignotent lorsqu’ils sont actifs. Au lieu de traiter l’audio dans le cloud, comme le font la plupart des haut-parleurs intelligents, les essaims acoustiques traitent tout l’audio localement, comme une contrainte de confidentialité. Et même si certaines personnes pensent d’abord à la surveillance, le système peut être utilisé à l’opposé, affirme l’équipe.

« Il a le potentiel de bénéficier réellement à la vie privée, au-delà de ce que permettent les haut-parleurs intelligents actuels », a déclaré Itani. « Je peux dire : « N’enregistrez rien autour de mon bureau » et notre système créera une bulle de 3 pieds autour de moi. Rien dans cette bulle ne serait enregistré. Ou si deux groupes parlent l’un à côté de l’autre et qu’un groupe a une conversation privée pendant que l’autre groupe enregistre, une conversation peut être dans une zone muette et elle restera privée.

Takuya Yoshioka, directeur de recherche principal chez Microsoft, est co-auteur de cet article, et Shyam Gollakota, professeur à l’Allen School, est l’auteur principal. La recherche a été financée par un prix Moore Inventor Fellow.

Essaims acoustiques robotiques : haut-parleur intelligent qui change de forme pour un contrôle audio ultime dans n’importe quelle pièce

Percée avec les essaims acoustiques robotiques

Les humains contre la technologie

Mécanisme de travail et tests

Potentiel futur et problèmes de confidentialité

Pourquoi l'hantavirus est-il si mortel ? Ce n'est pas ce que tu penses

Un procédé inspiré de la soie d'araignée transforme la protéine de maïs en un matériau semblable à du plastique plus résistant

Un modèle basé sur les données capture la dynamique de la turbulence à grande échelle

Les éruptions solaires peuvent montrer des signes avant-coureurs prévisibles des heures avant leur éruption

Une méthode sans métal ouvre la voie à l’édition sélective du carborane pour le traitement du cancer et les capteurs

Comment fonctionne la spectroscopie à double peigne et pourquoi elle pourrait remodeler la détection de précision

La résonance de l’intelligence : l’apprentissage vocal complexe prédit les capacités de résolution de problèmes et la taille du cerveau chez les oiseaux chanteurs

Montrer aux élèves de huitième année une adaptation primée du journal d’Anne Frank est désormais un délit passible de poursuites au Texas

Le rôle des e-mails professionnels dans les entreprises

Vivre sans compte bancaire : est-ce vraiment possible en France ?

Compte bancaire ado : quels gestes adopter en tant que parents ?

L’assurance vie est-il un placement sans risque ?

Réussir sa reconversion professionnelle en communication grâce à la formation en ligne

Le coliving : vers une nouvelle manière d’habiter plus écologique

Le mont Dukono, toujours agité, entre en éruption

Meghan Markle s'inspire du manuel de mode de la princesse Diana

Qui est Christopher Olah, le cofondateur d'Anthropic accueilli par le pape Léon ?

Le prince William évite les questions sur le mariage de Taylor Swift, mais confirme que ses enfants sont des Swifties

Pourquoi l'hantavirus est-il si mortel ? Ce n'est pas ce que tu penses

Un procédé inspiré de la soie d'araignée transforme la protéine de maïs en un matériau semblable à du plastique plus résistant

À peine 1,2 milliard d’années après le Big Bang, les galaxies étaient déjà façonnées par l’endroit où elles vivaient

Un modèle basé sur les données capture la dynamique de la turbulence à grande échelle

Des chercheurs veulent clarifier la pollution due au trafic à Tampa

Une histoire abrégée de la façon dont l'Hôtel du Cap est devenu le centre du pouvoir glamour de Cannes

Tony Hawk répond au questionnaire de Proust

Les éruptions solaires peuvent montrer des signes avant-coureurs prévisibles des heures avant leur éruption

Une méthode sans métal ouvre la voie à l’édition sélective du carborane pour le traitement du cancer et les capteurs

La glace d'eau de Mercure a peut-être été déposée par un impacteur plus grand et plus lent qu'on ne le pensait auparavant, en une seule journée

Percée avec les essaims acoustiques robotiques

Les humains contre la technologie

Mécanisme de travail et tests

Potentiel futur et problèmes de confidentialité

Avant de partir, restons en contact !