Využití corpus driven metod při corpus based výzkumu
Autoři | |
---|---|
Rok publikování | 2015 |
Druh | Článek ve sborníku |
Konference | Proměna jazyka a jeho výzkumu v době nových médií a technologií |
Fakulta / Pracoviště MU | |
Citace | |
www | http://www.phil.muni.cz/wucj/home/News/2015/sbornik-promena-jazyka-a-jeho-vyzkumu-v-dobe-novych-medii-a-technologii |
Obor | Jazykověda |
Klíčová slova | corpus; corpus based; corpus driven; overgeneration; undegeneration; lemma; tag; word formation |
Popis | Jedním z podstatných rysů aplikací automatické analýzy přirozeného jazyka je tzv. přegerovávání. Formální definici odpovídají jednotky, které tvoří homogenní skupinu (tu, kterou se prostřednictvím formálního zadání snažíme definovat), ale i jednotky, které jsou vůči této skupině heterogenní. Tento jev spadá na vrub obecné vlastnosti přirozeného jazyka, jíž je nejednoznačnost (homonymie) na všech úrovních. Rubem téže mince je tzv. podgenerovávání, tedy případ, kdy formální zadání je vymezeno příliš úzce, takže nejsou zachyceny jednotky, které se jeho prostřednictvím snažíme definovat. Na konkrétním příkladu ukážeme postup optimalizace vyhledávání dat pro korpusově založený (corpus based) výzkum slovotvorby, který vychází z korpusově řízené (corpus driven) metody zpřesňování formálního zadání na základě pozorování přegenerovaných dat. |
Související projekty: |