Between Comparable and Parallel: English-Czech Corpus from Wikipedia

Varování

Publikace nespadá pod Ústav výpočetní techniky, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Autoři

ŠTROMAJEROVÁ Adéla BAISA Vít BLAHUŠ Marek

Rok publikování 2016
Druh Článek ve sborníku
Konference RASLAN 2016 Recent Advances in Slavonic Natural Language Processing
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www https://nlp.fi.muni.cz/raslan/2016/paper03-Stromajerova_Baisa_Blahus.pdf
Obor Informatika
Klíčová slova parallel corpora; comparable corpora; Wikipedia
Popis We describe the process of creating a parallel corpus from Czech and English Wikipedias using methods which are language independent. The corpus consists of Czech and English Wikipedia articles, the Czech ones being translations of the English ones, is aligned on sentence level and is accessible in Sketch Engine corpus manager.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info