Nahrávání zvuku
Zdroj: Jonathan Velasquez, Unsplash

VALL-E od firmy Microsoft věrně napodobí cizí hlas

Jednou z novinek v oblasti výzkumu umělé inteligence a strojového učení je nástroj VALL-E od společnosti Microsoft, který zvládne imitovat hlas konkrétní osoby. Možná rizika si uvědomují i tvůrci.

Firma Microsoft předvedla jeden z výsledků výzkumu v oblasti převádění textu na řeč. Nástroj nazvaný VALL-E dokáže napodobit číkoliv mluvu. Pozoruhodné ale je, že mu k naučení stačí pouze třísekundový zvukový vzorek. Přičemž dokáže imitovat barvu hlasu, emoce či tón mluvčího. Navíc si poradí také s akustikou místa z originální nahrávky.

Pro napodobení stačí modelu VALL-E třísekundový vzorek hlasu.
Pro napodobení stačí modelu VALL-E třísekundový vzorek hlasu. Zdroj: Cowomen, Unsplash

Tvůrci pro trénování modelu využili 60 tisíc hodin anglické řeči, což je několikanásobně více, než využívají doposud známe nástroje. Právě díky tomu nemá VALL-E problém s věrným napodobením hlasu. Microsoft projekt zveřejnili prostřednictvím webu GitHub, kde si zároveň můžete poslechnout i vybrané vzorky zvukových záznamů a porovnat originální nahrávku od mluvčího s uměle vytvořenou.

Ačkoliv má VALL-E a obdobné nástroje do budoucna velký potenciál využití, drobnou vadou na kráse může být také riziko zneužití při identifikaci či rozpoznávání hlasu nebo vydávání se za někoho jiného. Na což ostatně upozorňují i samotní tvůrci. Podobný problém už totiž přináší technologie deepfakes, která umožňuje nahradit tvář jednoho člověka za obličej jiné osoby. Přičemž použití není omezené pouze na fotografie, ale využít jde také u videí.

Zdroj: VALL-E, Arxiv