
В сложна среда хората могат да разберат значението на речта по -добре от AI, защото ние използваме не само ушите си, но и очите си.
Например, виждаме нечия уста да се движи и може интуитивно да знае, че звукът, който чуваме, трябва да идва от този човек.
Meta AI работи върху нова система за диалог на AI, която е да научи AI да се научи също да разпознава фините корелации между това, което вижда и чува в разговор.
VisualVoice се учи по подобен начин на това как хората се научават да овладяват нови умения, като позволяват аудио-визуално разделяне на речта чрез изучаване на визуални и слухови сигнали от незабелязани видеоклипове.
За машините това създава по -добро възприятие, докато човешкото възприятие се подобрява.
Представете си, че можете да участвате в групови срещи в Metaverse с колеги от цял свят, присъединявайки се към по -малки групи от групови срещи, докато те се движат през виртуалното пространство, по време на които звуковите реверба и тембрите на сцената правят съответно коригирането на околната среда.
Тоест, той може да получи аудио, видео и текст на текста едновременно и има по -богат модел на разбиране на околната среда, което позволява на потребителите да имат звуково изживяване „много уау“.
Време за публикация: 20-2022 юли