Computing Idioms Frequency in Text Corpora

Varování

Publikace nespadá pod Ústav výpočetní techniky, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Výpočet četnosti idiomů v korpusu
Autoři	BUŠTA Jan
Rok publikování	2008
Druh	Článek ve sborníku
Konference	Proceedings of Recent Advances in Slavonic Natural Language Processing 2008
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
www	https://nlp.fi.muni.cz/raslan/2008/papers/12.pdf
Obor	Jazykověda
Klíčová slova	frequency of idioms; headwords; text corpora; czech language
Popis	Idiomy jsou slovní spojení, jejichž význam se neskládá z významů jednotlivých slov. Idiomy jsou příkladem porušování principu kompozicionality a tím jsou problémem při strojovém zpracování jazyka. Výpočet četnosti idiomů v korpusu přinese informaci, které idiomy se používají častěji, které méně často. Seřazení idiomů dle jejich četnosti ukáže, na které idiomy je třeba se soustředit více, a tak lépe porozumět přirozenému jazyku.
Související projekty:	Centrum komputační lingvistiky Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce