Google verwendet KI, um das Audio von Videoanrufen zu verbessern

Bildrechte
Getty

Bildbeschreibung

Google hofft, bei Videoanrufen Audio in schlechter Qualität beenden zu können.

Google hofft, Videoanrufe von geringer Qualität beenden zu können, indem künstliche Intelligenz eingesetzt wird, um Audio-Lücken zu schließen, die durch schlechte Verbindungen verursacht werden.

WaveNetEQ verwendet eine Bibliothek mit Sprachdaten, um kurze Gesprächsabschnitte realistisch fortzusetzen.

Die KI ist darauf trainiert, hauptsächlich Silbengeräusche zu erzeugen, und kann Lücken von bis zu 120 Millisekunden füllen.

Die Verwendung von Videoanrufen hat während der Corornavirus-Krise zunehmend an Bedeutung gewonnen.

  • Die britische Regierung verteidigt die Verwendung von Zoom durch PM
  • Coronavirus: Rassistisches Zoombomben in der virtuellen Synagoge

Wenn Sie über das Internet telefonieren, werden die Daten in kleine Teile aufgeteilt, die als Pakete bezeichnet werden.

Eine schlechte Verbindung kann bedeuten, dass diese Pakete in der falschen Reihenfolge und zur falschen Zeit die andere Partei erreichen oder dass sie vollständig verloren gehen. Dies kann zu einer erheblichen Verschlechterung der Anrufqualität führen.

Laut Google treten bei 99% der Anrufe, die mit der Duo-App getätigt werden, Audioprobleme auf. Von diesen Anrufen verlieren 20% mehr als 3% ihres gesamten Audios, während 10% fast ein Zehntel verlieren.

WaveNetHQ erstellt speziell Sprachdaten, um die Lücken zu schließen, die durch Audioeinbrüche entstehen.

Datenübertragung

Die KI wurde mit den Stimmen von 100 Personen in 48 Sprachen trainiert, um die allgemeinen Eigenschaften einer menschlichen Stimme unabhängig vom Dialekt zu lernen.

Douglas Crawford, Cyber-Sicherheitsforscher bei ProPrivacy, sagt, dass die End-to-End-Verschlüsselung von Duo dazu beitragen sollte, Bedenken hinsichtlich des Datenaustauschs auszuräumen.

"Da Anrufe auf der Plattform durch End-to-End-Verschlüsselung gesichert sind, war das Auslagern der AI-Verarbeitung fehlender Pakete zur Reduzierung von Audio-Jitter für Entwickler einfach keine Option", sagte er gegenüber der BBC.

"Google hat dieses Problem gelöst, indem die gesamte Verarbeitung auf Ihrem Gerät durchgeführt wurde, sodass niemals Daten an Dritte übertragen werden.

Das System ist derzeit auf Googles Pixel 4-Smartphone verfügbar. Das Unternehmen plant, im Laufe dieses Jahres auf weitere Android-Geräte zu expandieren.

Im Jahr 2018 teilte Google die Kritiker, als es eine Software für künstliche Intelligenz vorstellte, die Termine telefonisch im Namen der Nutzer bucht, indem sie realistische sprachbasierte Anrufe tätigt. Die Funktion ist derzeit jedoch nur in den USA verfügbar.