Project information
Harvesting big text data for under-resourced languages (HaBiT)

Information

This project doesn't include Institute of Computer Science. It includes Faculty of Informatics. Official project website can be found on muni.cz.

Project Identification

7F14047

Project Period

6/2014 - 4/2017

Investor / Pogramme / Project type

Ministry of Education, Youth and Sports of the CR

Czech-Norwegian Research Programme (CZ09)

MU Faculty or unit

Faculty of Informatics

Cooperating Organization

Norwegian University of Science and Technology

Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim a přidruženou Universitou v Oslo), které se budou věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije iiž svých existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem.
Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building – tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED
důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce díky kooperaci s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.

Publications

Total number of publications: 41

2016

Evaluating Natural Language Processing Tasks with Low Inter-Annotator Agreement: The Case of Corpus Applications

KOVÁŘ Vojtěch

Article in Proceedings

Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016, year: 2016
Evaluation and Improvements in Punctuation Detection for Czech

KOVÁŘ Vojtěch MACHURA Jakub ZEMKOVÁ Kristýna ROTT Michal

Article in Proceedings

Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings, year: 2016
Finding Definitions in Large Corpora with Sketch Engine

KOVÁŘ Vojtěch MOČIARIKOVÁ Monika RYCHLÝ Pavel

Article in Proceedings

Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), year: 2016
Graded and Word-Sense-Disambiguation Decisions in Corpus Pattern Analysis: a Pilot Study

CINKOVA Silvie KREJČOVÁ Ema VERNEROVÁ Anna BAISA Vít

Article in Proceedings

Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), year: 2016
Large Scale Keyword Extraction using a Finite State Backend

JAKUBÍČEK Miloš ŠMERK Pavel

Article in Proceedings

Tenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2016, year: 2016
Lexicographic Tools to Build New Encyclopaedia of the Czech Language

HORÁK Aleš RAMBOUSEK Adam

Article in Periodical

The Prague Bulletin of Mathematical Linguistics, year: 2016, volume: 2016, edition: 106, DOI
Multilingual CPA: Linking Verb Patterns across Languages

BAISA Vít MOŽE Sara RENAU Irene

Article in Proceedings

Proceedings of the XVII EURALEX International congress, year: 2016
On Evaluation of Natural Language Processing Tasks: Is Gold Standard Evaluation Methodology a Good Solution?

KOVÁŘ Vojtěch JAKUBÍČEK Miloš HORÁK Aleš

Article in Proceedings

Proceedings of the 8th International Conference on Agents and Artificial Intelligence, year: 2016
RuSkELL: Online Language Learning Tool for Russian Language

APRESJAN Valentina BAISA Vít BUIVOLOVA Olga KULTEPINA Olga

Article in Proceedings

Proceedings of the XVII EURALEX International congress, year: 2016
Set of Ethiopian Web Corpora

SUCHOMEL Vít RYCHLÝ Pavel

Software

Year: 2016

Project informationHarvesting big text data for under-resourced languages (HaBiT)

Information

Publications

2016

Project information
Harvesting big text data for under-resourced languages (HaBiT)