Nová možnost zkoumání (nejen) zvukové roviny jazyka – korpus Monolog

Veronika Štěpánová
Ústav pro jazyk český AV ČR, v. v. i.
<stepanova@ujc.cas.cz>

Abstract:

The paper presents the newly created corpus Monolog, its applications and also its possibilities and restrictions. This corpus was built as a source for analyses of pronunciation in Czech mass media and its mission is to fill partly the gap in the field of the Czech spoken corpora. The paper also shows the results of the analysis concerning the standard pronunciation of two Czech numerals – sedm ‘seven’ and osm ‘eight’. Some types of phonetic analyses that cannot be realised with the current state of the corpus Monolog (for example the pronunciation of proper names) are discussed as well.

Klíčová slova / key words:

korpus Monolog, korpusy mluvené češtiny, výslovnost, norma

corpus Monolog, spoken corpora of Czech, pronunciation, norm

1. Úvod

V tomto příspěvku,¹ který je zaměřený především foneticky, bychom chtěli představit nově vzniklý korpus Monolog, popsat práci s ním a ukázat jeho možnosti, ale i omezení. Analýza dat z tohoto zdroje představuje jeden z možných postupů, jak získávat informace o dnešním úzu, a především normě mluvené češtiny.

2. Současné možnosti zkoumání zvukové roviny češtiny

2.1 Korpus Monolog

Korpus Monolog byl budován v letech 2010–2012, jeho vznik podpořila Grantová agentura Univerzity Karlovy. Data do korpusu budou v blízké budoucnosti ještě doplňována, v tomto příspěvku vycházíme ze stavu k březnu 2013. Korpus obsahuje monologické nahrávky profesionálních mluvčích veřejnoprávního Českého rozhlasu a ortografické přepisy těchto nahrávek. Jedná se o projevy připravené, které jsou většinou čtené. Materiál byl získáván ze zvukového archivu Českého rozhlasu, z něhož lze volně stahovat záznamy mnoha rozhlasových pořadů ve vysoké kvalitě. Vybráno bylo 16 mluvčích (osm žen a osm mužů), od nichž bylo k dispozici větší množství delších monologických nahrávek, které vznikly po roce 2007. Při výběru mluvčích se zohledňoval mimo jiné i regionální původ (pokud bylo možné jej zjistit), a to tak, aby byli pokud možno zastoupeni mluvčí z různých regionů celé České republiky.

Kvůli předpokládaným detailním fonetickým analýzám bylo nezbytné zvolit ty pořady, v nichž není řeč podkreslena hudbou či jinými doprovodnými zvuky. Kvůli této podmínce a kvůli požadavku monologického projevu se repertoár vhodných pořadů značně zúžil a korpus je tvořen z velké části zpravodajskými relacemi. Dostupné jsou pouze ty úseky nahrávek, v nichž mluvčí delší dobu souvisle sami hovoří, korpus Monolog tedy neobsahuje celé rozhlasové pořady. V této chvíli se celková velikost korpusu blíží k 300 minutám, v nichž zaznělo skoro 40 tisíc textových slov.

U všech mluvčích se předpokládá, že se (např. v souladu s kodexem Českého rozhlasu) snaží o projev po všech stránkách spisovný a že v rámci veřejnoprávního vysílání působí jako tzv. řečové vzory. Ukázky mluvních výkonů každého z mluvčích v korpusu byly podrobeny testům typu řečový vzor. I když se kvalita mluveného projevu jednotlivých mluvčích podle posluchačského hodnocení pochopitelně mírně liší, žádný z nich nebyl považován za špatného, nebo dokonce nepřijatelného mluvčího. Nahrávky v korpusu Monolog lze tak (a to i z dalších důvodů) považovat za jeden z možných zdrojů zkoumání české noremní výslovnosti.

2.2 Další možnosti zkoumání zvukové roviny češtiny

Korpus Monolog byl budován především jako zdroj výzkumu výslovnostního úzu v českých médiích a se záměrem alespoň minimálně vyplnit mezeru, kterou pociťují ti, kteří se v současnosti zabývají analýzou zvukové (fonetické) roviny češtiny. Ačkoli byly v nedávné minulosti vytvořeny poměrně rozsáhlé korpusy zaměřené na současnou mluvenou češtinu (např. korpusy řady ORAL ČNK), tyto zdroje nepostačují, zejména pokud jde o analýzy fonetických jevů. K dispozici bývají totiž obvykle pouze přepisy, nikoli samotné zdrojové nahrávky. Pro potřeby lingvistů, kteří zkoumají mluvenou komunikaci spisovnou/noremní/oficiální, vytvářejí výkladové slovníky atp., pak dosud korpusové zdroje nebyly dostupné vůbec. Důvodem byl a je zřejmě nejvíce fakt, že vznik korpusů vhodných pro výzkum zvukové roviny jazyka je po všech stránkách náročnější než získávání materiálu psaného. Proto lze v současnosti vycházet pouze z nepočetných a rozsahově omezených zdrojů.

2.3 Práce s korpusem Monolog

Než přejdeme k ukázkám konkrétních analýz některých výslovnostních jevů, zaměříme se stručně na popis práce s korpusem Monolog. Korpus je dostupný z webové adresy <monolog.dialogy.org>, kde jsou také uveřejněny podrobné informace o něm. Pro vstup do samotného korpusu je nutné se zaregistrovat pomocí jednoduchého formuláře, v němž si zájemce zvolí uživatelské jméno a zadá svoji e-mailovou adresu. Na tu přijde heslo umožňující korpus využívat. Po přihlášení je pak možné v pravém sloupci kliknout na odkaz „vyhledávání pomocí Dialogy.Org“, případně použít cestu přes odkaz „jak hledat v korpusu“. Následně se otevře formulář, v němž lze zadat konkrétní slovo, případně řetěz slov (včetně pravého a levého kontextu). Je možné také vyhledávat podle lemmatu určitého slova či na základě různých gramatických značek (tagů). Program umožní v budoucnu hledat i podle pohlaví mluvčího, druhu pořadu atp., tyto funkce zatím nejsou v provozu; k účelům, k nimž byl korpus především vybudován, nejsou ani nezbytně nutné.

Při hledání konkrétních hláskových spojení je velmi výhodné používat znak hvězdičky, který zastupuje libovolně dlouhý řetězec znaků včetně nulového, případně znak tečky, který zastupuje právě jeden znak. Po zadání hledaného výrazu se v horní části obrazovky vpravo vypíše počet nalezených výskytů a zobrazí se jednotlivé konkordanční řádky. Červeně je vyznačeno hledané slovo, na konci každého konkordančního řádku je uvedeno lemma (základní tvar slova; zvýrazněno žlutě), tag (gramatická značka) a informace o pořadu, z něhož nahrávka pochází (zkratka názvu a datum vysílání; zvýrazněno žlutě).

Na začátku každého konkordančního řádku jsou dva odkazy, na které lze kliknout. První je označený písmenem A a spouští se jím audionahrávka v místě, kde se vyskytuje nalezený text. Druhý odkaz je označen číslem repliky a slouží k zobrazení celého ortografického přepisu dané nahrávky.

3. Analýza některých fonetických jevů v korpusu Monolog

Nyní se zaměříme na ukázku konkrétních fonetických výzkumů, kvůli nimž korpus Monolog vznikl především, ačkoli může být samozřejmě využit i pro zkoumání jiných jazykových rovin, případně i k jiným badatelským účelům.

Zkoumali jsme dva zcela odlišné hláskové jevy, díky nimž lze snadno ilustrovat současné možnosti a omezení tohoto korpusového zdroje. Na oba jevy jsme zaznamenali dotazy při práci v jazykové poradně Ústavu pro jazyk český, někdy přímo i od profesionálních mluvčích z českých médií. Nejprve se budeme věnovat výslovnosti číslovkových výrazů sedm a osm, posléze pak problematice výslovnosti příjmení cizího původu. Fonetické analýzy byly prováděny pomocí sluchové metody. V případě, kdy jsme na základě tohoto postupu nebyli schopni rozhodnout, která varianta byla užita, jsme přistoupili ke spektrální analýze nahrávky v programu Praat.

3.1 Výslovnost výrazů sedm a osm

Číslovky sedm a osm jsou pozoruhodné v tom, že pokud je nevyslovíme s vkladným vokálem u, neobsahuje druhá slabika žádnou samohlásku, a dokonce ani běžné slabikotvorné souhlásky r nebo l; jejím jádrem je sonora m.²

Podle ortoepické kodifikace je náležité v číslovkách sedm a osm a také ve slovech od nich odvozených užívat vkladný vokál u, výslovnost [sedum] a [ʔosum] je považována nejen za pohodlnější pro mluvčího, ale i zřetelnější pro posluchače (srov. Výslovnost spisovné češtiny I, 1967, s. 59). Podoby bez vkladného u jsou pak považovány za příznak zvlášť pečlivé výslovnosti.³

3.1.1 Výsledky – sedm

V případě číslovky sedm nalezneme v korpusu Monolog 82 relevantních dokladů od jedenácti různých mluvčích, z nichž je šest mužů a pět žen. 32× se jedná přímo o tvar sedm, 20× o slovo sedmnáct v různých pádech (včetně složeniny sedmnáctileté), 18× o slovo sedmdesát v různých pádech (včetně odvozeniny sedmdesátkou a složeniny pětasedmdesáti) a 11× o složeniny typu sedmadvacet, v nichž výraz sedm tvoří první komponent. Zbývající jeden doklad je výraz sedmasedmdesátiletá, který je pozoruhodný nejen tím, že se v něm zkoumaný jev vyskytuje dvakrát, ale i konkrétní realizací, o níž se zmíníme dále.

Z provedené poslechové analýzy plyne, že ve 49 případech mluvčí realizovali podobu s vkladným vokálem, v 32 případech pak hláska u vložena nebyla (z toho ve dvou případech u stejné mluvčí byla vyslovena neortoepická podoba [sedn̩]).

Lze říci, že jednotliví mluvčí jsou ve výslovnosti tohoto slova poměrně konzistentní, tj. většina z nich realizuje číslovku sedm ve všech zachycených případech shodně – buď s vkladným vokálem, nebo bez něj, bez ohledu na to, v jakém tvaru a podobě se vyskytuje. Sedm mluvčích (dvě ženy a pět mužů) vokál u pravidelně vkládali, tři mluvčí (dvě ženy a jeden muž) jej většinou nerealizovali. U těchto tří mluvčích je možné uvažovat o tom, zda tento jev nesouvisí s jejich původem, dva z nich totiž pocházejí z jižních Čech, jeden z Olomouce (tj. z oblastí nářečně výrazných a spíše periferních).⁴ Na základě takto malého vzorku mluvčích však nelze jednoznačně tvrdit, že nevkládání vokálu u zde souvisí s „nářečním“ původem daných mluvčích, u nichž navíc nevíme, zda v daných lokalitách skutečně vyrůstali, kde prožili většinu života, odkud pocházeli jejich rodiče atp. U mluvčí narozené v Olomouci se však projevila ve dvou případech i tendence realizovat nářeční, neortoepickou podobu [sedn̩], o níž jsme se zmínili již výše.⁵

U zbývající jedné mluvčí pak dochází k pozoruhodnému střídání podob s vkladným vokálem a bez něj. Z celkových sedmi případů se třikrát vyskytuje podoba s epentetickým vokálem, ve čtyřech případech vkladné u užito není, zde se však vždy jedná o složeninu sedmadvacítka (v různých pádech), která je realizována pětislabičně, tj. sed-ma-dva-cít-ka, nikoli náležitě šestislabičně se-dm-a-dva-cít-ka, respektive se-du-ma-dva-cít-ka. Mluvčí tedy „nepohodlné“ slabikotvorné m odstranila jiným způsobem než obvyklým vložením samohlásky, což však podle našeho názoru nelze považovat za ortoepické.

Podobný jev je možné zaznamenat i u mluvčí, která použila již zmíněný výraz sedmasedmdesátiletá. Analyzovaný jev se zde vyskytuje dvakrát v jednom slově, přesto nebyl realizován shodně. V první, tříslabičné části výrazu se vkladné u ani slabikotvorné [m̩] neobjevilo, protože mluvčí vyslovila sekvenci dvojslabičně jako sed-ma. V druhé části slova, v níž není obdobná realizace možná, je však již zřetelně slyšet epentetické u.

3.1.2 Výsledky – osm

V případě číslovky osm se vyskytuje v korpusu Monolog 76 relevantních dokladů od třinácti různých mluvčích, z nichž je sedm mužů a šest žen. 22× jde přímo o číslovku osm, 28× o výraz osmnáct v různých pádech, 23× o slovo osmdesát v různých pádech (včetně složeniny pětaosmdesátkou) a 3× o složeniny typu osmadvacet, v nichž výraz osm tvoří první složku.

Z provedené poslechové analýzy plyne, že ve 38 případech mluvčí hlásku u vkládali a rovněž ve 38 případech realizovali podobu bez epentetického vokálu. Pokud bychom však měli k dispozici rozsáhlejší materiál, je pravděpodobné, že výsledky by tak vyrovnané nebyly. Bez vkladného u vyslovují číslovku osm pouze tři mluvčí, zbývajících deset se slabikotvornému m vyhýbá. Plných 30 dokladů z 38 bez vkladného vokálu totiž patří stejné mluvčí – v pořadech, z nichž její nahrávky pocházejí, se vyskytují ve zvýšené míře letopočty, které obsahují spojení osmnáct set. Od ostatních mluvčích se v korpusu vyskytují v průměru čtyři doklady na zkoumaný jev. Pokud od dotyčné mluvčí vezmeme v úvahu rovněž pouze čtyři doklady, výsledky budou následující: 50 výskytů celkem, z toho 38 případů s vkladným u a pouze 12 bez něho. V předchozí analýze výslovnosti číslovky sedm se takto velké nepoměry mezi počty dokladů od jednotlivých mluvčích nevyskytovaly, proto takovéto vyvážení nebylo nutné.

Jednotliví mluvčí byli ve výslovnosti slova osm konzistentní, až na jednu mluvčí všichni realizovali tuto číslovku ve všech případech shodně – buď s vkladným u, nebo bez něj, bez ohledu na to, v jakém tvaru a v jaké podobě se vyskytla. Dva mluvčí (jedna žena a jeden muž) epentezi zásadně neprováděli, deset mluvčích (šest mužů a čtyři ženy) vokál pravidelně vkládali. U zbývající jedné mluvčí se vyskytla třikrát podoba bez epenteze a dvakrát s ní. Důvod této rozkolísanosti není jasný, nesouvisí ani s podobou daného výrazu (tj. liší se např. realizace slova osmnáct a osmnáctého), ani např. s datem nahrávky (všech pět dokladů pochází ze stejného měsíce téhož roku, ze začátku a na konci měsíce se vyskytují podoby bez u, uprostřed měsíce pak podoby s vokálem) a ani s typem textu (jednalo se stále o tentýž pořad, text byl vždy připravený a zjevně čtený).

3.1.3 Shrnutí výsledků – sedm, osm

Pokud porovnáme celkové výsledky analýz u číslovek sedm a osm, není překvapivé, že se navzájem odlišují jen minimálně. V obou případech jsme analyzovali zhruba osm desítek dokladů od více než deseti mluvčích. Doklady s epentetickým vokálem, které jsou pohodlnější pro mluvčí i pro posluchače, vždy početně převažovaly nad výskyty bez něj.⁶ Se všemi 11 mluvčími, od nichž jsme získali doklady na výslovnost číslovky sedm, se setkáváme i ve druhé analýze, která se týkala číslovky osm. Porovnáním výsledků obou výzkumů u jednotlivých mluvčích se potvrdil předpoklad, že tentýž mluvčí bude epentetický vokál buď realizovat u obou číslovek, nebo u žádné z nich. Mluvčí (narozená v Olomouci), u které se vyskytla tendence ke kolísání podoby slova osm, je táž, u níž jsme konstatovali, že výraz sedm občas vyslovuje (evidentně pod vlivem nářečního původu) neortoepicky. U mluvčí, která se slabikotvorného m ve výrazech typu sedmadvacet zbavovala redukcí jedné slabiky, jsme tentýž jev u číslovky osm nemohli zkoumat, protože korpus neobsahuje žádnou její realizaci výrazu typu osmadvacet.

Jsme si vědomi skutečnosti, že zejména počet mluvčích by měl být pro objektivnější zkoumání vyšší a že se naše závěry dají vztáhnout pouze na profesionální rozhlasové mluvčí, kteří produkují připravený, většinou čtený projev.

3.2 Výslovnost příjmení německého původu

V jazykové poradně lze rovněž občas zaznamenat dotazy týkající se výslovnosti příjmení. Často se jedná např. o to, zda v nepřímých pádech jmen německého původu zakončených na párový konsonant vyslovovat souhlásku znělou, či neznělou. Typickými příklady takovýchto příjmení jsou poměrně frekventovaná jména Klaus a Schwarzenberg, jejichž nositeli jsou výrazné současné osobnosti společenského dění, takže je jejich výskyt v mluvených médiích poměrně hojný. Tazatele, mezi nimiž bývají i profesionální mluvčí, zajímá, zda je v těchto případech náležitá podoba [kla͡use], nebo [kla͡uze], respektive [švarcn̩berga], nebo [švarcn̩berka]. U prvního příjmení se v grafické podobě vyskytuje písmeno s označující hlásku neznělou, ale ve výslovnosti se lze často setkat s realizací znělou, která pak neodpovídá grafické podobě. U druhého příjmení je tomu přesně naopak, zapisuje se s písmenem z označujícím hlásku znělou, ale i v nepřímých pádech se vyskytuje v úzu s konsonantem neznělým.

Ačkoli se jedná, jak jsme již konstatovali, o příjmení v mediálním diskurzu v současnosti poměrně frekventovaná, nenacházíme v korpusu Monolog ani v jednom případě dostatečný počet dokladů jejich užití v nepřímých pádech, díky nimž bychom mohli provést smysluplnou analýzu jejich realizací.⁷ Konkrétně příjmení Klaus se zde v nepřímém pádě vyskytuje pouze jedinkrát (dokladů v prvním pádě je více, avšak na nich nelze z pochopitelných důvodů daný jev zkoumat), relevantní doklady příjmení Schwarzenberg v nepřímých pádech jsou v korpusu jen tři.

4. Nedostatečnost současných korpusových zdrojů

Ačkoli by se tedy mohlo zdát, že zdroj obsahující několik stovek minut nahrávek, jejichž podstatnou část tvoří nepříliš staré zpravodajské relace, bude pro podobné výzkumy dostatečný, není tomu zdaleka tak. Vyhledávání potřebných (nejméně desítek) dokladů uzuální výslovnosti např. na internetu v on-line archivu Českého rozhlasu nebo České televize, na serverech typu YouTube a podobně je práce velmi časově náročná a zdlouhavá, často navíc s minimálními výsledky. Z tohoto důvodu je nutné korpusy mluveného jazyka neustále rozšiřovat, systematicky doplňovat o nová data a s ohledem na fonetické výzkumy zpřístupňovat i zdrojové nahrávky. Pak mohou sloužit i podobným analýzám, které jsou zajímavé nejen z lingvistického, ale i aktuálního společenského hlediska.

5. Možnost pro budoucí výzkumy (?)

Jedním ze zdrojů pro výzkumy mluvené češtiny se snad v budoucnu stane nástroj, který je vyvíjen na Technické univerzitě v Liberci. Projekt NAKI (DF11P01OVV013), který tamní vědci od Ministerstva kultury ČR získali, se zaměřuje na zpřístupnění zvukového archivu Českého rozhlasu pro sofistikované vyhledávání pomocí automatického rozpoznávání řeči. Nejedná se sice o přístup zaměřený primárně lingvisticky, avšak doufáme, že např. i pro fonetické analýzy to bude velice zajímavý a cenný zdroj reálných dat, která by mohla být případně využita např. při rozšiřování korpusu Monolog.

Literatura:

Bělič, Jaromír (1972): Sedm, sedmnáct, sedmdesát… Naše řeč, 55, s. 72–78.

Korpus Monolog 1.0. (2012) [online]. Cit. 23. 3. 2013. Dostupné z WWW: <http://monolog.dialogy.org>.

Výslovnost spisovné češtiny I. Zásady a pravidla. Výslovnost slov českých (1967²). Praha: Academia.

Poznámky:

1 Příspěvek vznikl v rámci grantového projektu GA ČR č. 13-00372S a s podporou RVO: 68378092.

2 Tento jev není v jazyce běžný, při výkladu slabikotvorných hlásek uvádějí fonetické příručky v případě slabikotvorného [m̩] jako příkladová slova právě pouze tyto dvě číslovky, kromě odvozenin z nich se jinde téměř nevyskytuje.

3 Např. J. Bělič (1972, s. 73) se však k takovémuto hodnocení stavěl kriticky: „Taková formulace se mi jeví jako upřílišená, neboť mnozí uživatelé spisovného jazyka, jak jsem si ověřil, pociťují naopak výslovnost typu [sedm̩] jako neutrální, kdežto výslovnost [sedum…] považují za spisovně hovorovou, popř. přímo za nespisovnou. V hodnocení obojích podob není tedy jednoty a rozdílnost je bezpochyby zčásti podmíněna i regionálně.“

4 Přehled o regionálních variantách výslovnosti číslovky sedm podal např. J. Bělič (1972), tamtéž viz i informace o historickém vývoji číslovek sedm a osm a o jejich výslovnosti v ostatních slovanských jazycích. Podoby se slabikotvorným [n̩] zachytil nejen v moravských nářečích, ale právě i v jižních Čechách.

5 Je pravděpodobné, že podobu bez vkladného u budou preferovat právě spíše mluvčí z Moravy a ze Slezska. Protože se v této oblasti číslovky sedm, osm často vyslovují jako [sedn̩] a [ʔosn̩] (srov. např. Bělič, 1972, s. 73), přičemž jádrem druhé slabiky není vokál, ale nazála n, nejsou tito mluvčí na vkladný vokál zvyklí a mohou ho považovat např. za projev tzv. obecné češtiny, k níž mají averzi; navíc si zřejmě obvykle ani neuvědomují, že místo náležitého m vyslovují n, a považují realizaci s n za spisovnou. Výskyt souhlásky n místo m lze vysvětlit snahou po usnadnění výslovnosti, jedná se o artikulační asimilaci se změnou místa tvoření (bilabiální m se vlivem alveolárního d mění v alveolární n).

6 Pro zajímavost uveďme ještě ortografický návrh J. Běliče (1972, s. 77–78): „Nakonec poznámka pravopisná: Je známo, že hlavní zásadou českého pravopisu je princip fonologický, tj. pravopisný systém je založen především na korespondenci foném v mluveném jazyce – grafém v jazyce psaném. Jestliže se tedy ve spisovné češtině uznává za ortoepickou výslovnost [sedm̩], [osm̩]... i [sedum], [osum]…, avšak předpisuje se jenom psaní sedm, osm…, je zde fonologický princip českého pravopisu porušen způsobem zcela výjimečným, omezeným pouze na tyto číslovky. Stojí proto za uváženou, zda by se paralelně s obojí výslovností vedle psaní sedm, osm… nemělo připustit také psaní sedum, osum atd.“

7 V korpusu se nevyskytuje ani dostatečný počet jiných příjmení podobného typu, na nichž by se dala analogická analýza provést. Tuto problematiku jsme do příspěvku zařadili především proto, abychom mohli na konkrétním příkladu ukázat nedostatečnost současných korpusových zdrojů při zkoumání zvukové stránky spisovné češtiny. Z tohoto důvodu se tomuto jevu nebudeme věnovat podrobněji.