Mining Relevant Text Documents Using Ranking-Based k-NN Algorithms Trained by Only Positive Examples

Varování

Publikace nespadá pod Fakultu sportovních studií, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Dolování relevantních textových dokumentů algoritmem k-NN trénovaným pouze pomocí pozitivních příkladů
Autoři	HROZA Jiří ŽIŽKA Jan
Rok publikování	2005
Druh	Článek ve sborníku
Konference	Znalosti 2005, sborník příspěvků
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
Obor	Informatika
Klíčová slova	ranking; text categorization; k-NN
Popis	Problém dolování relevantních informací z velkého množství nestrukturovaných textů je často řešen pomocí metod strojového učení, které jsou trénovány na pozitivních i negativních příkladech připravených expertem dané oblasti. Avšak pokud jsou k dispozici pouze pozitivní příklady, je třeba tyto algoritmy modifikovat. Metoda k-NN modifikovaná pro učení se pouze z pozitivních příkladů umožňuje klasifikovat neznámé dokumenty formou seřazení na základě jejich podobnosti. Tímto způsobem je možné získat dostatek relevantních dokumentů s velmi vysokou přesností. Hlavním cílem bylo nalézt metodu umožňující dolovat relevantní dokumenty z velkého množství (stovek či tísíců) podobných lékařských textů. Experimenty s reálnými datovými sadami poskytují -- za daných podmínek -- přijatelné výsledky z pohledu závislosti přesnosti na pokrytí.
Související projekty:	Interakce člověka s počítačem, dialogové systémy a asistivní technologie