Effects of Selected Basic Algorithm Parameters and Data Features on Text Categorization by Support Vector Machines
| Název česky | Vplyv vybraných základných parametrov a dátových atribútov na textovú kategorizáciu pomocou Support Vector Machines |
|---|---|
| Autoři | |
| Rok publikování | 2005 |
| Druh | Článek ve sborníku |
| Konference | Znalosti 2005, sborník příspěvků |
| Fakulta / Pracoviště MU | |
| Citace | |
| Obor | Informatika |
| Klíčová slova | text categorization; support vector machines |
| Popis | Tento článok popisuje výsledky získané z testovanie vplyvu vybraných dôležitých parametrov Support Vector Machines (SVM) aplikovaných na klasifikáciu textov Hlavným cieľom bolo zistiť, či výsledky získané štandardnými verejne dostupnými dátovými množinami (tradičné Reuters textové dokumenty a 20Newsgroups) môžu byť aplikované na skutočné medicínske texty získané z internetu používané lekármi. Výskum sa toež zameral na vlastnosti ako podobnosť dokumentov, vyváženosť kategórií, prítomnosť bežných slov a množstvo dokumentov. Výsledky testov ukazujú, že môťu nastať problémy s nastavením parametriv pre niektoré prirodzené dáta. Špeciálne medicínske dokumenty dávali zlé výsledky pretože skutočné kategórie neboli dobre vyvážené a dokumnety v rôznych kategóriách sa vzájomne prekrývali. Výsledok - SVM nedokáže vždy nájsť vhodnú deliacu nadrovinu na rozdiel od 'bezproblémových' dátových množín ako Reuters, či 20Newsgroups |
| Související projekty: |