Zamienię: głos na twarz!

Czyli jak przewidzieć wygląd kuriera na podstawie jednego telefonu…

Czasem nie pozostaje nic innego jak przyznać: rzeczywistości zdarza się nas – redakcję futu.bloga – zaskoczyć…

Bądź na bieżąco z przyszłością! 🙂 Polub Futu.blog na Facebook! 👍

Otóż naukowcy z Laboratorium Sztucznej Inteligencji MIT (w tym brzmiący rodzimie Wojciech Matusik) nauczyli sieć neuronową przewidywać, jak wygląda ludzka twarz wyłącznie na podstawie głosu jej właściciela. Dodajemy, że do całkiem trafnego zgadywania wystarczą kilkusekundowe nagrania.

Za materiały do nauki posłużyły między innymi nieprzebrane zasoby wideo w sieci, w tym YouTube, gdzie czego jak czego, ale gadających głów nie brakuje. Przynajmniej niektóre z wyników należy uznać za spektakularne. Oceńcie zresztą sami:

  • pierwsze miejsce w kolumnie zajmuje rzeczywista fotografia właściciela lub wlaścicielki głosu
  • środkowa – to cyfrowa rekonstrukcja jego lub jej twarzy w ujęciu eu face (na podstawie pierwowzoru)
  • ostatnie zdjęcie z trójki to symulacja stworzona wyłącznie w oparciu o próbkę mowy.

Przynajmniej dla części zespołu futu.bloga odkrycie owo jest nielada zaskoczeniem. Szacowanie wyglądu na podstawie głosu – dajmy na to podczas telefonicznej rozmowy – jest czymś zupełnie naturalnym. Któż zatem, poznawszy właściciela wokalu, nie pamięta uczucia zdziwienia: zupełnie nie tak cię sobie wybrażałem…

Okazuje się, że dźwięki wydawane przez nasze struny głosowe niosą z sobą znacznie więcej informacji niż dotychczas przypuszczano. Otwiera to ciekawie pole do interpretacji – być może na wysokość, tembr i głośność odgłosów wydawanych przez człowieka, czynniki genetyczne – te odpowiadajace również za wygląd – mają większy niż nam się zdawało wpływ.

Bądź na bieżąco z przyszłością! 🙂 Polub Futu.blog na Facebook! 👍

Ponieważ, jak stwierdzono z konsternacją na początku, daliśmy się wyprzedzić rzeczywistości, postaramy się na koniec odebrać jej prowadzenie następującą futu.blogiczną wizją…

Śmiemy twierdzić, iż już całkiem niedługo usłyszymy Juliusza Cezara, Napoleona, czy Kleopatrę, przemawiających do nas z ekranu. Trochę szkoda jedynie, że na początek po anglo-amerykańsku.

Wydaje się dość łatwą rzeczą odwrócenie działania algorytmu. Czyli tak wyszkolić sieć neuronową, by przewidywała głos na podstawie wyglądu.

Swoją drogą, tu na futu.blogu, jesteśmy szalenie ciekawi, w jaki obraz algorytm zrekonstruowałby dźwięki wydawane przez Kaczora Donalda… A Wy?

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj /  Zmień )

Zdjęcie na Google

Komentujesz korzystając z konta Google. Wyloguj /  Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj /  Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj /  Zmień )

Połączenie z %s

Ta witryna wykorzystuje usługę Akismet aby zredukować ilość spamu. Dowiedz się w jaki sposób dane w twoich komentarzach są przetwarzane.