Lukáš Sapík: Gott navždy – rozhlasový dárek ke stovce, který lámal rekordy

8. leden 2024

Karel Gott: Má cesta za štěstím (přes 1 000 000 poslechů)|foto:Lenka Hatašová, Český rozhlas

Přečtěte si článek o projektu, který dal Českému rozhlasu nejposlouchanější literárně-dramatické dílo v jeho stoleté historii.

Věřím, že Karla Gotta vám nemusím představovat. A jistě vám nemusím představovat ani Český rozhlas. Mnoho čtenářů si nepochybně vybaví i řadu počinů, které vznikly během mnohaleté spolupráce Karla Gotta a rozhlasu. Od prvních nahrávek z karlínského studia A až po několik sezón úspěšného autorského pořadu Zpátky si dám tenhle film nebo novou verzi písničky Jdi za štěstím natočenou se Symfonickým orchestrem Českého rozhlasu. Tím zatím posledním počinem, který spojil slavného zpěváka s adresou Vinohradská 12, je projekt GOTT NAVŽDY. Pomocí moderních technologií a díky zručnosti zvukových mistrů Českého rozhlasu se nám podařilo vrátit zpět do éteru nezaměnitelný hlas Karla Gotta.

Jak jsme to udělali? Cesta to rozhodně nebyla snadná a po obou stranách ji lemovala otázka za otázkou – nejen z oblasti technické, ale také právní nebo etické.

Zadání přitom znělo celkem jednoduše – nechat umělou inteligenci vytvořit digitální otisk hlasu Karla Gotta, který by mohl načíst část jeho autobiografie Má cesta za štěstím. Téměř sedmisetstránkovou knihu stihl Karel Gott za svého života dopsat, ale bohužel už ji nestihl namluvit svým rozhlasovým posluchačům. Tento dluh jsme chtěli se svolením jeho manželky Ivany Gottové narovnat. S nápadem přišel někdy v polovině roku 2022 programový ředitel Českého rozhlasu Ondřej Nováček a rozhlas pak projekt zařadil k hlavním pilířům oslav 100. výročí od zahájení pravidelného rozhlasového vysílání na českém území.

Jak už to tak ale u jednoduchých zadání bývá, čím snáz to vypadá, tím komplikovanější může být cesta k cíli.

Samotné vytvoření hlasového modelu trvalo zhruba dva měsíce. Postarali se o něj vědci z Výzkumného centra Nové technologie pro informační společnost Západočeské univerzity v Plzni a společnost SpeechTech. Z rozhlasových archivů dostali k dispozici desítky hodin záznamů z již zmíněného pořadu Zpátky si dám tenhle film. Materiálu to bylo víc než dost, vždyť Český rozhlas Dvojka vysílal pořad týden co týden celých pět sezon. Karel Gott v něm svým fanouškům hrál svou oblíbenou hudbu a vyprávěl historky a vzpomínky ze svého života – o setkáních se zahraničními hudebními hvězdami, o spolupráci s českými kolegy, o zájezdech po celém světě, o písničkách, které za svoji kariéru nazpíval.

Jak ale vývojáři brzy zjistili, ne všechny záznamy byly pro jejich potřeby vhodné. Nemohli například využít pasáže, v nichž je vyprávění podkresleno hudbou. Nakonec tedy, po očištění o všechna nevhodná místa, získali asi 20 hodin mluveného projevu Karla Gotta.

S těmito záznamy pak začali pracovat – mluvené slovo jsme nechali přepsat do textu. V něm postupně takzvaní anotátoři začali dělat poznámky a upravovali například výslovnost. Když totiž řeknete například slovo „úsměv“, je to ve skutečnosti spíš „úsměf“. A to ani nemluvím o cizích názvech, kterých bylo v pořadu opravdu hodně. A tak se v textu například místo „Die Goldene Stimme aus Prag“ muselo objevit „Dý goldene štyme aus Prág“. Takových příkladů bych tu mohl uvést desítky. Zkrátka bylo nutné zajistit, aby si umělá inteligence mohla dobře porovnat zvuk, který jsme jí předali, s přepsaným textem. Aby si mohla obojí dobře spárovat a nemátlo ji, že písmeno „v“ v textu zní jako „f“ a podobně. Byla to velmi důkladná a mravenčí práce.

Ale vyplatila se – potvrdilo se nám heslo, že dobrá příprava je polovina úspěchu. To ale neznamená, že jsme od začátku byli s mluveným projevem umělé inteligence spokojení na sto procent.

Není „eR“ jako „eR“

Když slyšíte, jak umělá inteligence namlouvá třeba autonavigaci, nebo předpověď počasí, asi jí nebudete mít až tak za zlé, že zní „plechově“. To ale neplatí u hlasu, který každý v této zemi (a kde kdo v zahraničí) velmi dobře zná, kde kdo se ho dokonce snaží napodobit.

Mimochodem, vybavila se mi teď historka, jak se Karel Gott jednou inkognito zúčastnil soutěže imitátorů Karla Gotta. Nevyhrál. Našli se soupeři, kteří podle porotců uměli jeho projev líp než on sám.

Hlas Karla Gotta je zkrátka specifický, snadno rozpoznatelný a notoricky známý. A je jedno, jestli se bavíme o hlasu pětadvacetiletého začínajícího zpěváka, nebo o hlasu zralého pětasedmdesátníka. Vsadím se, že obě jeho polohy bezpečně poznáte. Věděli jsme to a přiznám se, že nás to na jednu stranu dost stresovalo a na druhou stranu motivovalo. Věděli jsme, že musíme vynaložit veškerou energii na to, aby byl hlas vytvořený umělou inteligencí uvěřitelný a nezněl jako parodie, nebo jako robot.

Tím spíš, že jsme si moc dobře pamatovali, jak obrovský byl Karel Gott profesionál a jak pečlivě dbal na to, aby všechno, co je spojeno s jeho jménem, bylo dokonalé.

První verze hlasového modelu, kterou vědci z Plzně vytvořili, ráčkovala. Stalo se to proto, že v pořadu Zpátky si dám tenhle film často zaznívaly anglické a německé názvy písniček a jména zahraničních interpretů. A české „R“ prostě není stejné jako to anglické nebo německé.

Nový úkol pro vývojáře – odnaučit Karla Gotta, tedy přesněji řečeno jeho hlasový model, ráčkovat. Povedlo se. Model jsme vyladili, jak nejlépe to šlo. Ale přece jen jsme se nechtěli (a podle zkušeností ani nemohli) spolehnout na umělou inteligenci, že vytvoří vše excelentně na první dobrou.

Z každé věty textu, kterou jsme do Plzně poslali, jsme si proto nechali vždy vygenerovat 60 různých verzí. Pokud se teď ptáte, jak je možné, že počítač – stroj – dokáže jednu jedinou větu vygenerovat šedesátkrát jinak, ptáte se naprosto správně, ale přesně to ani dnes vysvětlit neumím. Pro nás bylo důležité, že to dokázal. Naštěstí.

Do hlasu, který posluchači uslyší v audioknize, jsme totiž potřebovali dostat emoci. Pokaždé jinou, ale pokaždé přesnou. A nemohli jsme se spoléhat na to, že náhodný generátor se trefí vždy na první dobrou.

Teď přichází etapa, na kterou budou asi navždy vzpomínat naši zvukoví mistři Damiana Smetanová a Jaroslav Pokorný. Právě oni totiž měli ten nesnadný úkol skládat jednotlivá slova a věty z různých verzí do uceleného zvukového projevu. Jen si to představte: každou jednu větu slyšet šedesátkrát za sebou – každá je stejná a přece trochu jiná. V první je lepší přízvuk na předložku, třetí je lépe procítěná, v sedmé je správný pokles hlasu na konci věty. Kráčel jsem touto trnitou cestou s nimi a můžu potvrdit, že po pár minutách zní všechny verze stejně a člověk je ztracený. Také proto trvala výroba dvouminutového zvuku zhruba čtyři až pět hodin čistého času. A také proto se mým kolegům o Karlu Gottovi nejednou zdálo.

V době, kdy jsme zápasili s dikcí, intonací a výslovností, byly už naštěstí vyřešené právní otázky celého projektu. Můžeme hlas vytvořený umělou inteligencí vůbec použít? Potřebujeme k tomu něčí svolení? A jak zabránit tomu, aby byl hlasový model zneužitý? Právě projekt Gott navždy byl impulsem k vytvoření zcela nových interních rozhlasových pravidel – pravidel práce s takzvanou syntézou hlasu, tedy hlasem, který vytvořila umělá inteligence. Chtěli jsme dát posluchačům jasně najevo, že využití takové technologické novinky má jasně dané mantinely, že jsme promýšleli vše do posledního detailu a že jsme naprosto transparentní. Základní pravidlo bylo proto hned od počátku zřejmé – posluchač musí jednoznačně vědět, že to, co slyší, není originál, ale hlasová syntéza. Upozornění na tuto skutečnost jsme přidali na začátek každého dílu a na on-line platformách Českého rozhlasu bylo i v textové podobě. Také jsme se zavázali, že pro hlasovou syntézu využijeme jen text, který daná osoba sama napsala, nebo prokazatelně pronesla. Že věty nebo slova nebudeme vytrhávat z kontextu a používat v jiném významu, než v jakém byla autorem myšlena.

Realizace

Společně s právníky jsme našli i odpověď na otázku, jestli potřebujeme od někoho svolení k použití hlasové syntézy v případě, že jde o skutečnou osobu.

Hlavním úskalím těchto našich debat nad právními otázkami bylo především to, že oblast umělé inteligence v té době (a dnes to není o moc jiné) nebyla nijak ošetřena v legislativě ani v Česku, ani v rámci Evropské unie. Předvídat, jak se někdy v budoucnu vysloví zákonodárce, je vcelku obtížná disciplína. My jsme chtěli být připraveni i na ty striktnější varianty.

A teď už konečně přidám odpověď na otázku o svolení. Přestože podle analýzy, kterou nám vypracovala renomovaná právní kancelář, není svolení podmínkou pro užití hlasové syntézy, předsevzali jsme si, že vždy uděláme maximum pro to, abychom svolení blízké osoby pro takové případy měli. Aby blízcí, většinou rodina, s naším záměrem souzněli a nic nevznikalo proti jejich vůli. V případě projektu Gott navždy to bylo jasně dáno už tím, že jsme potřebovali získat licenci ke knize, z níž četba na pokračování měla vzniknout. Proto se na tomto místě sluší poděkovat paní Ivaně Gottové, která naše odvážné nápady na počátku schválila a na projektu po celou dobu spolupracovala. Troufám si říct, že ji výsledek potěšil, i když nejvíc ze všeho byla zaskočená tím, co dnes moderní technologie dokážou.

A přidám ještě jedno poděkování – skvělému herci Igoru Barešovi, který se zhostil role Karla Gotta a načetl svým hlasem většinu zpěvákovy autobiografie. Hlasová syntéza totiž tvoří zhruba dvě až tři minuty v každém pětadvacetiminutovém dílu. A tak zatímco zvukoví mistři pracovali na tom, aby hlasová syntéza zněla co nejlépe a nejvěrohodněji, ve studiu číslo sedm v budově Českého rozhlasu ve Vinohradské 12 vytvářeli Igor Bareš, režisér Aleš Vrzák a zvukový mistr Tomáš Pernický základ rozsáhlé četby na pokračování. Celkem připravili 73 dílů, do kterých následně Tomáš Pernický vsazoval podkresovou hudbu a do ní hlasovou syntézu.

Igor Bareš pochopitelně nečetl knihu tak, jak vyšla v tištěné verzi. Jednotlivé kapitoly byly upravené přímo pro rozhlasové vysílání. To měla na starost Lucie Němečková – zkracovala, spojovala a proškrtávala text tak, aby co nejlépe vyhovoval rozhlasovému poslechu. V upravených textech, v podstatě scénářích k jednotlivým kapitolám, jsme pak s Ivanou Gottovou a Alešem Vrzákem vybírali odstavce, které načítala umělá inteligence hlasem Karla Gotta.

Informace o tom, že projekt připravujeme, unikla do médií někdy v polovině června. To už byla většina dílů dokončená a ladili jsme poslední detaily. Hlas vytvořený umělou inteligencí jsme chtěli poprvé představit vpředvečer nedožitých 84. narozenin Karla Gotta – ve čtvrtek 13. července 2023. Vybrali jsme si pro tuto výjimečnou událost výjimečný prostor – studio S1 ve Vinohradské. Studio, kde Karel Gott v roce 2019 natáčel se Symfonickým orchestrem Českého rozhlasu novou verzi své slavné písničky Jdi za štěstím. Právě ta tvoří ústřední hudební motiv celé četby na pokračování.

Kruh se pomalu uzavírá

Ale jak to celé dopadlo? Věřím, že jste měli možnost o projekt Gott navždy aspoň jedním uchem zavadit, a tak to můžete posoudit sami. Možná právě vy jste jedním z tisíců posluchačů, kteří z projektu Gott navždy učinili nejposlouchanější literárně-dramatické dílo v historii Českého rozhlasu. Během 49 dní, kdy byly jednotlivé díly k poslechu na webu Českého rozhlasu Dvojka a v aplikaci mujRozhlas, jsme zaznamenali více než jeden milion poslechů on-line.

Reakce posluchačů nás velmi mile překvapily. Čekali jsme, že část příznivců Karla Gotta nebude souhlasit s tím, že jsme hlas, který tak důvěrně znají a rádi poslouchají, vrátili pomocí moderních technologií zpět do vysílání. Negativních reakcí ale bylo velmi málo a já osobně jsem přesvědčený, že je to především díky skvělé, poctivé, důsledné a naprosto profesionální práci týmu, který na projektu Gott navždy téměř rok pracoval.

Myslím, že celou tu dobu nás k tomu nejlepšímu výsledku hnala hlavně myšlenka, co by tomu celému řekl sám Karel Gott – známý obdivovatel nových technologií, který své okolí vždycky rád překvapoval a ohromoval. Dost možná by pronesl něco jako „Tak tohle jsem tedy opravdu nečekal!“

Snad by ho těšilo, že byl opět, tak jako už mnohokrát v historii českého zábavního průmyslu, průkopníkem.

autor: sap