Mining Relevant Text Documents Using Ranking-Based k-NN Algorithms Trained by Only Positive Examples

Varování

Publikace nespadá pod Fakultu sportovních studií, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.
Název česky Dolování relevantních textových dokumentů algoritmem k-NN trénovaným pouze pomocí pozitivních příkladů
Autoři

HROZA Jiří ŽIŽKA Jan

Rok publikování 2005
Druh Článek ve sborníku
Konference Znalosti 2005, sborník příspěvků
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Informatika
Klíčová slova ranking; text categorization; k-NN
Popis Problém dolování relevantních informací z velkého množství nestrukturovaných textů je často řešen pomocí metod strojového učení, které jsou trénovány na pozitivních i negativních příkladech připravených expertem dané oblasti. Avšak pokud jsou k dispozici pouze pozitivní příklady, je třeba tyto algoritmy modifikovat. Metoda k-NN modifikovaná pro učení se pouze z pozitivních příkladů umožňuje klasifikovat neznámé dokumenty formou seřazení na základě jejich podobnosti. Tímto způsobem je možné získat dostatek relevantních dokumentů s velmi vysokou přesností. Hlavním cílem bylo nalézt metodu umožňující dolovat relevantní dokumenty z velkého množství (stovek či tísíců) podobných lékařských textů. Experimenty s reálnými datovými sadami poskytují -- za daných podmínek -- přijatelné výsledky z pohledu závislosti přesnosti na pokrytí.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info