Meta veut que le paysage virtuel sonne comme la vraie vie

Meta veut que le paysage virtuel sonne comme la vraie vie

Meta et un groupe de chercheurs de l'Université du Texas à Austin (UT Austin) travaillent pour apporter un son réaliste au Metaverse.

Comme l'explique Kristen Garuman, directrice de recherche chez Meta AI (ouvre dans un nouvel onglet), la réalité augmentée et virtuelle (AR et VR, respectivement) ne concernent pas seulement les visuels. L'audio joue un rôle énorme dans la création d'un monde. Garuman dit que "l'audio est façonné par l'environnement. Plusieurs facteurs influencent le comportement du son, tels que la géométrie d'une pièce, ce qu'il y a dans ladite pièce et la distance entre une personne et une source.

Pour ce faire, le plan de Meta est d'utiliser des lunettes AR pour enregistrer de l'audio et de la vidéo à partir d'un seul endroit, puis d'utiliser un ensemble de trois modèles d'IA pour transformer et nettoyer l'enregistrement afin qu'il ait l'air de se passer devant vous lorsque vous le jouez. jouer. À la maison. Les IA prendront en compte la pièce dans laquelle vous vous trouvez pour correspondre à l'environnement.

En regardant les projets, il semble que Meta se concentre sur les lunettes AR. Le plan de Meta pour les casques VR comprend la reproduction des images et des sons d'un environnement, tel qu'un concert, afin que vous ayez l'impression d'être là en personne.

Nous avons demandé à Meta comment les gens peuvent entendre un son amélioré. Les gens auront-ils besoin d'une paire d'écouteurs pour écouter ou viendront-ils d'écouteurs ? Nous n'avons pas reçu de réponse.

Nous avons également demandé à Meta comment les développeurs peuvent mettre la main sur ces modèles d'IA. Ils ont été rendus open source afin que des développeurs externes puissent travailler sur la technologie, mais Meta n'a pas fourni plus de détails.

Transformé par l'IA

La question est de savoir comment Meta peut enregistrer de l'audio sur une paire de lunettes AR et le faire refléter un nouveau paramètre.

La première solution est connue sous le nom d'AViTAR, qui est un "Visual Acoustic Matching Model". (ouvre dans un nouvel onglet) C'est l'IA qui transforme l'audio pour correspondre à un nouvel environnement. Meta donne l'exemple d'une mère enregistrant le récital de danse de son fils dans un auditorium avec une paire de lunettes AR.

L'un des chercheurs affirme que la mère en question peut prendre cet enregistrement et le rejouer à la maison où l'IA transformera l'audio. Il analysera l'environnement, prendra en compte tous les obstacles dans une pièce et donnera l'impression que le récital se déroule juste devant elle avec les mêmes lunettes. L'enquêteur affirme que le son proviendra des lunettes.

Pour aider à nettoyer l'audio, il y a un dereverb visuellement informé (s'ouvre dans un nouvel onglet). Fondamentalement, il supprime la réverbération gênante du clip. L'exemple donné est d'enregistrer un concert de violon dans une gare, de le ramener à la maison et de faire nettoyer le clip par l'IA pour que vous n'entendiez que de la musique.

Le dernier modèle d'IA est VisualVoice (s'ouvre dans un nouvel onglet), qui utilise une combinaison d'indices visuels et audio pour séparer les voix des autres bruits. Imaginez que vous enregistrez une vidéo de deux personnes qui se disputent. Cette IA isolera une voix afin que vous puissiez la comprendre tout en coupant tout le reste. Meta explique que les repères visuels sont importants car l'IA a besoin de voir qui parle pour comprendre certaines nuances et savoir qui parle.

En ce qui concerne les visuels, Meta dit qu'ils prévoient d'incorporer de la vidéo et d'autres indices pour améliorer encore l'audio piloté par l'IA. Étant donné que cette technologie en est encore aux premiers stades de développement, on ne sait pas si et quand Meta apportera ces IA à un casque Quest près de chez vous.

Assurez-vous de lire notre dernière revue Oculus Quest 2 si vous envisagez d'en acheter un. Alerte spoiler : on aime ça.