Des chercheurs de l’Université de Washington ont développé un système de haut-parleurs intelligents innovant qui utilise des « essaims acoustiques » robotisés pour séparer et gérer les sons dans des environnements très fréquentés. Ces microphones à déploiement automatique, alimentés par des algorithmes d’apprentissage en profondeur, peuvent suivre des locuteurs individuels et séparer les conversations qui se chevauchent, même si les voix sont similaires.
Présentation d’un système de haut-parleurs intelligents qui utilise des « essaims acoustiques » robotiques pour identifier et gérer les sons, promettant à la fois un contrôle audio et une confidentialité améliorés dans les environnements occupés.
Dans les réunions virtuelles, il est facile d’empêcher les gens de se parler. Quelqu’un vient de couper le son. Mais pour l’essentiel, cette capacité ne se traduit pas facilement par l’enregistrement de rassemblements en personne. Dans un café animé, il n’y a pas de boutons pour faire taire la table à côté de vous.
La capacité de localiser et de contrôler le son – en isolant par exemple une personne qui parle d’un endroit spécifique dans une pièce bondée – a mis les chercheurs au défi, en particulier sans les repères visuels des caméras.
Percée avec les essaims acoustiques robotiques
Une équipe dirigée par des chercheurs du Université de Washington a développé un haut-parleur intelligent qui change de forme, qui utilise des microphones auto-déployants pour diviser les pièces en zones de parole et suivre les positions des locuteurs individuels. Grâce aux algorithmes d’apprentissage en profondeur de l’équipe, le système permet aux utilisateurs de désactiver certaines zones ou de séparer les conversations simultanées, même si deux personnes adjacentes ont des voix similaires. Comme une flotte de Roombas, chacun d’environ un pouce de diamètre, les microphones se déploient automatiquement depuis, puis reviennent vers, une station de recharge. Cela permet au système d’être déplacé entre les environnements et de se configurer automatiquement. Dans une salle de conférence, par exemple, un tel système pourrait être déployé à la place d’un microphone central, permettant ainsi un meilleur contrôle de l’audio dans la salle.
L’équipe publiera ses conclusions aujourd’hui (21 septembre) dans Communications naturelles.
Une équipe dirigée par des chercheurs de l’Université de Washington a développé un haut-parleur intelligent qui change de forme, qui utilise des microphones auto-déployants pour diviser les pièces en zones de parole et suivre la position de chaque locuteur. Ici, l’essaim de robots est représenté dans sa station de recharge, vers laquelle les robots peuvent revenir automatiquement. Crédit : April Hong/Université de Washington
Les humains contre la technologie
« Si je ferme les yeux et qu’il y a 10 personnes qui parlent dans une pièce, je n’ai aucune idée de qui dit quoi et où elles se trouvent exactement dans la pièce. C’est extrêmement difficile à traiter pour le cerveau humain. Jusqu’à présent, cela a également été difficile pour la technologie », a déclaré le co-auteur principal Malek Itani, doctorant à l’UW à la Paul G. Allen School of Computer Science & Engineering. « Pour la première fois, en utilisant ce que nous appelons un ‘essaim acoustique’ robotique, nous sommes capables de suivre les positions de plusieurs personnes parlant dans une pièce et de séparer leurs discours. »
Les recherches antérieures sur les essaims de robots ont nécessité l’utilisation de caméras aériennes ou intégrées, de projecteurs ou de surfaces spéciales. Le système de l’équipe UW est le premier à distribuer avec précision un essaim de robots en utilisant uniquement le son.
Mécanisme de travail et tests
Le prototype de l’équipe se compose de sept petits robots répartis sur des tables de différentes tailles. Lorsqu’ils quittent leur chargeur, chaque robot émet un son à haute fréquence, comme une chauve-souris naviguant, utilisant cette fréquence et d’autres capteurs pour éviter les obstacles et se déplacer sans tomber de la table. Le déploiement automatique permet aux robots de se placer au maximum précision, permettant un meilleur contrôle du son que si une personne les définissait. Les robots se dispersent le plus loin possible les uns des autres, car des distances plus grandes facilitent la différenciation et la localisation des personnes qui parlent. Les haut-parleurs intelligents grand public d’aujourd’hui disposent de plusieurs microphones, mais regroupés sur le même appareil, ils sont trop proches pour permettre les zones muettes et actives de ce système.
Une équipe dirigée par des chercheurs de l’Université de Washington a développé un haut-parleur intelligent qui change de forme, qui utilise des microphones auto-déployants pour diviser les pièces en zones de parole et suivre les positions des locuteurs individuels. Ici, les doctorants de l’Allen School, Tuochao Chen (au premier plan), Mengyi Shan, Malek Itani et Bandhav Veluri, font une démonstration du système dans une salle de réunion. Crédit : April Hong/Université de Washington
« Si j’ai un microphone à un pied de moi et un autre à deux pieds, ma voix arrivera en premier au microphone qui se trouve à un pied. Si quelqu’un d’autre est plus proche du microphone situé à deux pieds de distance, sa voix y arrivera en premier », a déclaré le co-auteur principal Tuochao Chen, doctorant à l’UW à l’école Allen. « Nous avons développé des réseaux neuronaux qui utilisent ces signaux temporisés pour séparer ce que dit chaque personne et suivre sa position dans un espace. Ainsi, vous pouvez avoir quatre personnes ayant deux conversations, isoler n’importe laquelle des quatre voix et localiser chacune des voix dans une pièce.
L’équipe a testé les robots dans des bureaux, des salons et des cuisines avec des groupes de trois à cinq personnes parlant. Dans tous ces environnements, le système pouvait discerner différentes voix à moins de 50 centimètres les unes des autres 90 % du temps, sans information préalable sur le nombre de locuteurs. Le système était capable de traiter trois secondes d’audio en 1,82 seconde en moyenne – assez rapide pour la diffusion en direct, mais un peu trop long pour les communications en temps réel telles que les appels vidéo.
Potentiel futur et problèmes de confidentialité
Selon les chercheurs, à mesure que la technologie progresse, des essaims acoustiques pourraient être déployés dans les maisons intelligentes pour mieux différencier les personnes qui parlent avec des haut-parleurs intelligents. Cela pourrait potentiellement permettre uniquement aux personnes assises sur un canapé, dans une « zone active », de contrôler vocalement un téléviseur, par exemple.
Les chercheurs prévoient de créer à terme des robots microphones capables de se déplacer dans les pièces, au lieu de se limiter aux tables. L’équipe étudie également si les haut-parleurs peuvent émettre des sons permettant des zones actives et muettes du monde réel, afin que les personnes situées dans différentes parties d’une pièce puissent entendre un son différent. L’étude actuelle constitue une nouvelle étape vers les technologies de science-fiction, telles que le « cône de silence » dans « Get Smart » et « Dune », écrivent les auteurs.
Bien entendu, toute technologie évoquant une comparaison avec des outils d’espionnage fictifs soulèvera des questions de confidentialité. Les chercheurs reconnaissent le potentiel d’utilisation abusive, c’est pourquoi ils ont inclus des garde-fous contre cela : les microphones naviguent avec le son, et non avec une caméra embarquée comme d’autres systèmes similaires. Les robots sont facilement visibles et leurs lumières clignotent lorsqu’ils sont actifs. Au lieu de traiter l’audio dans le cloud, comme le font la plupart des haut-parleurs intelligents, les essaims acoustiques traitent tout l’audio localement, comme une contrainte de confidentialité. Et même si certaines personnes pensent d’abord à la surveillance, le système peut être utilisé à l’opposé, affirme l’équipe.
« Il a le potentiel de bénéficier réellement à la vie privée, au-delà de ce que permettent les haut-parleurs intelligents actuels », a déclaré Itani. « Je peux dire : « N’enregistrez rien autour de mon bureau » et notre système créera une bulle de 3 pieds autour de moi. Rien dans cette bulle ne serait enregistré. Ou si deux groupes parlent l’un à côté de l’autre et qu’un groupe a une conversation privée pendant que l’autre groupe enregistre, une conversation peut être dans une zone muette et elle restera privée.
Takuya Yoshioka, directeur de recherche principal chez Microsoft, est co-auteur de cet article, et Shyam Gollakota, professeur à l’Allen School, est l’auteur principal. La recherche a été financée par un prix Moore Inventor Fellow.


