Do we need very large corpora?
| Název česky | Potřebujeme velmi velké korpusy? |
|---|---|
| Autoři | |
| Rok publikování | 2011 |
| Druh | Článek ve sborníku |
| Fakulta / Pracoviště MU | |
| Citace | |
| Obor | Informatika |
| Klíčová slova | corpora, corpus tools |
| Popis | V příspěvku věnujeme pozornost velmi velkým korpusům získávaným z webu. Nejprve uvádíme motivaci vedoucí ke vzniku zdrojů tohoto typu a jejich potřebnost jak pro lingvisty. Dále se probírají techniky používané pro budování velkých korpusů čítajících více než miliardu tokenů a prezentují se výsledky získané v Centru zpracování přirozeného jazyka FI MU, tj. jak nástroje, tak i korpusy. Následuje analýza důsledků vyplývajících z budování velkých textových datových zdrojů a způsobů, jimiž se s nimi pracuje v korpusové lingvistice a aplikacích v oblasti zpracování přirozeného jazyka. |
| Související projekty: |