Do we need very large corpora?

Varování

Publikace nespadá pod Ústav výpočetní techniky, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Potřebujeme velmi velké korpusy?
Autoři	PALA Karel RYCHLÝ Pavel
Rok publikování	2011
Druh	Článek ve sborníku
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
Obor	Informatika
Klíčová slova	corpora, corpus tools
Popis	V příspěvku věnujeme pozornost velmi velkým korpusům získávaným z webu. Nejprve uvádíme motivaci vedoucí ke vzniku zdrojů tohoto typu a jejich potřebnost jak pro lingvisty. Dále se probírají techniky používané pro budování velkých korpusů čítajících více než miliardu tokenů a prezentují se výsledky získané v Centru zpracování přirozeného jazyka FI MU, tj. jak nástroje, tak i korpusy. Následuje analýza důsledků vyplývajících z budování velkých textových datových zdrojů a způsobů, jimiž se s nimi pracuje v korpusové lingvistice a aplikacích v oblasti zpracování přirozeného jazyka.
Související projekty:	Centrum komputační lingvistiky