Přegenerování a podgenerování : Jak efektivně vyhledávat v jazykových korpusech data pro lingvistický výzkum

Varování

Publikace nespadá pod Ústav výpočetní techniky, ale pod Filozofickou fakultu. Oficiální stránka publikace je na webu muni.cz.

Autoři	OSOLSOBĚ Klára
Rok publikování	2024
Druh	Vyžádané přednášky
Fakulta / Pracoviště MU	Filozofická fakulta
Citace
Popis	V přednášce ukážeme na případu typu kutil (deverbativních názvů osob - apelativ/proprií - tvořených konverzí l-ového příčestí k deklinačnímu typu pán), jak lze při kladení dotazu v korpusově založeném výzkumu slovotvorby korigovat přegenerování (zvýšit přesnost) a zabránit podgenerování (udržet pokrytí). Ověříme meze a možnosti formálního popisu (algoritmizace). Představíme výsledky kvantitativní analýzy založené na datech získaných z korpusu (corpus based). Naznačíme, jak lze data využít pro výzkum proprií. Zmíníme se o možnostech využití v počítačovém zpracování přirozeného jazyka (natural language processing - NLP), konkrétně pro oblast automatické morfologické analýzy.
Související projekty:	Lexikon a gramatika češtiny IV - 2024