Jednou z novinek v oblasti výzkumu umělé inteligence a strojového učení je nástroj VALL-E od společnosti Microsoft, který zvládne imitovat hlas konkrétní osoby. Možná rizika si uvědomují i tvůrci.
Firma Microsoft předvedla jeden z výsledků výzkumu v oblasti převádění textu na řeč. Nástroj nazvaný VALL-E dokáže napodobit číkoliv mluvu. Pozoruhodné ale je, že mu k naučení stačí pouze třísekundový zvukový vzorek. Přičemž dokáže imitovat barvu hlasu, emoce či tón mluvčího. Navíc si poradí také s akustikou místa z originální nahrávky.
Tvůrci pro trénování modelu využili 60 tisíc hodin anglické řeči, což je několikanásobně více, než využívají doposud známe nástroje. Právě díky tomu nemá VALL-E problém s věrným napodobením hlasu. Microsoft projekt zveřejnili prostřednictvím webu GitHub, kde si zároveň můžete poslechnout i vybrané vzorky zvukových záznamů a porovnat originální nahrávku od mluvčího s uměle vytvořenou.
Ačkoliv má VALL-E a obdobné nástroje do budoucna velký potenciál využití, drobnou vadou na kráse může být také riziko zneužití při identifikaci či rozpoznávání hlasu nebo vydávání se za někoho jiného. Na což ostatně upozorňují i samotní tvůrci. Podobný problém už totiž přináší technologie deepfakes, která umožňuje nahradit tvář jednoho člověka za obličej jiné osoby. Přičemž použití není omezené pouze na fotografie, ale využít jde také u videí.
Zdroj: VALL-E, Arxiv
Odpovědět
Zobrazit komentáře