Software Framework for Topic Modelling with Large Corpora
| Název česky | Softwarový framework pro tematickou podobnost ve velkých korpusech |
|---|---|
| Autoři | |
| Rok publikování | 2010 |
| Druh | Článek ve sborníku |
| Konference | Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks |
| Fakulta / Pracoviště MU | |
| Citace | |
| www | |
| Obor | Počítačový hardware a software |
| Klíčová slova | document similarity; NLP; software; vector space model; topical modelling; software framework; topical document similarity; Python; IR; LSA; LDA; gensim; DML-CZ |
| Přiložené soubory | |
| Popis | Velké korpusy jsou dnes všudypřítomné. Při jejich plnotextovém zpracování ve vektorové reprezentaci (podobnost dokumentů) brzy začne být limitujícím faktorem velikost paměti. Identifikovali jsme a zaplnili mezeru v dobře škálovatelné implementaci několika populárních algoritmů. Popisujeme snadno použitelný NLP softwarový framework založený na myšlence proudového zpracování dokumentů, tedy zpracování jednoho dokumentu po druhém, tedy v konstatní paměti vzhledem k počtu dokumentů. Implementujeme několik populárních algoritmů pro tematickou inferenci, včetně Latentní sémantické analýzy a Latentní Dirichletovy alokace způsobem, který je nezávislý na velikosti korpusu. Důraz je kladen na přímočarý a intuitivní design, aby modifikace a rozšíření metod a jejich užití v praxi bylo co nejjednodušší. Demonstrujeme užitečnost našeho přístupu na nasazení software na příkladu počítání podobností dokumentů v existující digitální matematické knihovně DML-CZ. |
| Související projekty: |