Filozofická Fakulta

Kolokvium LP 2016

Spell-check Old Czech

Boris Lehečka

 

Příspěvek představí nástroje pro kontrolu překlepů v transkribovaných staročeských pramenech, které vznikají v rámci Výzkumné infrastruktury pro diachronní bohemistiku (RIDICS, http://vokabular.ujc.cas.cz). Při přípravě podkladů (seznamu náležitých tvarů) byla využita staročeská textová banka Vokabuláře webového (http://vokabular.ujc.cas.cz/banka.aspx). Referát se zaměří na algoritmy aplikované na korpusový materiál ve snaze vytvořit co nejrozsáhlejší seznam slovních tvarů, který bude dostatečně kvalitní (např. bude rozlišovat velká písmena u proprií) a zároveň nebude obsahovat potenciálně chybné, resp. problémové tvary.