Morfologická produktivita v diachronii: příklad sufixů -mento/-zione ve staré italštině od 13. do 16. století
Pavel Štichauer
Kvantitativní – korpusově založené – pojetí morfologické produktivity, vycházející z prací Haralda Baayena (např. 1992; 2001; 2008), se dnes běžně objevuje v synchronním výzkumu slovotvorných procesů. Diachronní aplikace tohoto přístupu však zdaleka tak běžná není (srov. např. Lüdeling – Evert 2005; Štichauer 2009), ačkoli se situace za poslední roky viditelně proměňuje (viz přehled Rácz – Papp – Hay 2016). Diachronní výzkum produktivity, tedy např. srovnání různých slovotvorných prostředků napříč stoletími, je totiž omezen specifickými problémy diachronních korpusů, na které v rozsáhlých synchronních korpusech nenarážíme (srov. např. Baayen 2009: 909-910). V této přednášce se proto na jednom konkrétním příkladu pokusím formulovat určité předpoklady a metodologické požadavky.
Je známo, že Baayen pojímá produktivitu jako pravděpodobnost, že v dostatečně velkém korpusu budeme postupně nacházet nová slova (ve smyslu types/lemmat) tvořená právě pomocí produktivních prostředků. Nárůst nových typů (V) lze vidět jako funkci nárůstu výskytů/tokenů (N): s rostoucím počtem výskytů (tedy velikostí korpusu, N) poroste také počet typů/lemmat V (Baayen 1992: 113). Baayen tak zavádí pojem vocabulary growth curve a vocabulary growth rate. Tempo nárůstu (pravděpodobnost P) lze vyjádřit jako poměr hapaxů k celkovému počtu tokenů (P = V1/N).
Takový postup nelze však jednoduše uplatnit v případě různě velikých diachronních korpusů. Jeden problém lze částečně překonat díky programu ZipfR (Baroni - Evert 2006; http://zipfr.r-forge.r-project.org), jenž implementuje dvě statistické techniky popsané Baayenem (2001) (interpolaci a extrapolaci). Druhý problém pak spočívá v pečlivé přípravě (v jakémsi pre-processingu) analyzovaných dat. V případě diachronních korpusů jsou totiž některé kroky značně obtížné. Za prvé jde o lemmatizaci. Ačkoli mnoho diachronních korpusů je lemmatizováno, v mnoha případech se neobejdeme bez precizní manuální korekce. Za druhé je nutné eliminovat ze seznamu potenciálních komplexních slov všechny typy, které vůbec pod daný slovotvorný prostředek nespadají. A za třetí jde zřejmě o zásadní nedostatek diachronních korpusů: mám na mysli nejen jejich omezenou velikost, ale zejména nevyváženost a nereprezentativnost, která se projevuje např. v daleko vyšší tendenci k tomu, co Evert (2005: 59) nazývá clustering effects; kromě toho se takové nevyvážené složení diachronních korpusů může měnit v rámci jednotlivých podkorpusů (srov. mj. Baayen 2009: 910).
Pokusím se všechny tyto problémy demonstrovat na konkrétním příkladu vývoje dvou sufixů -mento/-zione ve staré italštině v období od 13. do 16. století (a částečně až po 19. století). Na základě diachronního korpusu italské literatury LIZ 4.0 představím čtyři podkorpusy odpovídající zmíněným obdobím; ukážu „hrubé“ a „čisté“ frekvenční seznamy slov nesoucích ony dva sufixy, popíšu eliminaci nežádoucího šumu na základě pěti kritérií (převzatých od Gaeta – Ricca 2002; 2003; 2006) a předvedu jednotlivé křivky nárůstu dle jednotlivých období. Z takového srovnání vyplyne mj. zajímavá diachronně neměnná produktivita sufixu -mento a značně variabilní situace sufixu -zione. Ryze kvantitativní výsledky se pak pokusím interpretovat.