Gensim -- Statistical Semantics in Python

Varování

Publikace nespadá pod Ústav výpočetní techniky, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Gensim -- statistická sémantika v Pythonu
Autoři	ŘEHŮŘEK Radim SOJKA Petr
Rok publikování	2011
Druh	Další prezentace na konferencích
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
Přiložené soubory	rehurek-sojka-scipy2011.pdf
Popis	\texttt{Gensim} je knihovna naprogramovaná jazyce Python, která je užitečná na dvou frontách: 1) pro indexaci elektronických dokumentů a pro podobnostní hledání; a 2) pro rychlou, paměťově omezenou a efektivní škálovatelnou implementaci algoritmů pro Singular Value Decomposition a Latent Dirichlet Allocation. Vazba mezi oběma užitími je semantická analýza textů (bez učitele) v rozsáhlých digitálních kolekcích a knihovnách. Gensim byl vytvořen pro velké digitální knihovny, ale jím implementované algoritmy pro velké, distribuované, online užití SVD a LDA jsou švýcarským nožíkem analýzy dat a jako takové jsou užitečné i mimo doménu Natural Language Processing.
Související projekty:	Centrum komputační lingvistiky The European Digital Mathematics Library