LEMPAS: A Make-Do Lemmatizer for the Swedish PAROLE-Corpus
| Název česky | LEMPAS: Lematizátor pro švédský korpus PAROLE |
|---|---|
| Autoři | |
| Rok publikování | 2006 |
| Druh | Článek v odborném periodiku |
| Časopis / Zdroj | Prague Bulletin of Mathematical Linguistics |
| Fakulta / Pracoviště MU | |
| Citace | |
| Obor | Informatika |
| Klíčová slova | LEMPAS; PAROLE; Swedish; lemmatizer; rule-based |
| Popis | LEMPAS, lemmatizátor pro švédský korpus PAROLE, vznikl jako vedlejší produkt práce s aplikací Sketch Engine (Kilgarrif a spol.) na švédštině, neboť řada užitečných funkcí této aplikace, jako například tvorba word sketches, je dostupná pouze pro lemmatizované korpusy. Něměli jsme přístup k žádným lexikálním zdrojům pro švédštinu a čas pro provedení lemmatizace byl velmi omezen. Lemmatizátor tedy neměl velké ambice. Nejprve jsme se pouze snažili spojit související slovní tvary do společných pre-lemmat s použitím obecných pravidel, aniž bychom tvořili seznamy konkrétních slov. Když prvotní pravidla dávala překvapivě dobré výsledky při lemmatizaci podstatných jmen, sloves a přídavných jmen, jsme se rozhodli převést pre-lemmata na skutečná lemmata. Finální program jsme testovali na manuálně lemmatizovaném korpus SUC (Stockholm-Umea Corpus) a provedli analýzu výsledků. |
| Související projekty: |