Využití corpus driven metod při corpus based výzkumu

Osolsobě,  Klára

Využití corpus driven metod při corpus based výzkumu

Varování

Publikace nespadá pod Fakultu sportovních studií, ale pod Filozofickou fakultu. Oficiální stránka publikace je na webu muni.cz.

Autoři	OSOLSOBĚ Klára
Rok publikování	2015
Druh	Článek ve sborníku
Konference	Proměna jazyka a jeho výzkumu v době nových médií a technologií
Fakulta / Pracoviště MU	Filozofická fakulta
Citace	OSOLSOBĚ, Klára. Využití corpus driven metod při corpus based výzkumu. Online. In Děngeová, Zuzana; Vališová, Pavlína. Proměna jazyka a jeho výzkumu v době nových médií a technologií. 1. vyd. Praha: Ústav pro jazyk český AV ČR, 2015, s. 3-12. ISBN 978-80-86496-87-0.
www	http://www.phil.muni.cz/wucj/home/News/2015/sbornik-promena-jazyka-a-jeho-vyzkumu-v-dobe-novych-medii-a-technologii
Obor	Jazykověda
Klíčová slova	corpus; corpus based; corpus driven; overgeneration; undegeneration; lemma; tag; word formation
Popis	Jedním z podstatných rysů aplikací automatické analýzy přirozeného jazyka je tzv. přegerovávání. Formální definici odpovídají jednotky, které tvoří homogenní skupinu (tu, kterou se prostřednictvím formálního zadání snažíme definovat), ale i jednotky, které jsou vůči této skupině heterogenní. Tento jev spadá na vrub obecné vlastnosti přirozeného jazyka, jíž je nejednoznačnost (homonymie) na všech úrovních. Rubem téže mince je tzv. podgenerovávání, tedy případ, kdy formální zadání je vymezeno příliš úzce, takže nejsou zachyceny jednotky, které se jeho prostřednictvím snažíme definovat. Na konkrétním příkladu ukážeme postup optimalizace vyhledávání dat pro korpusově založený (corpus based) výzkum slovotvorby, který vychází z korpusově řízené (corpus driven) metody zpřesňování formálního zadání na základě pozorování přegenerovaných dat.
Související projekty:	Čeština v jednotě synchronie a diachronie - 2015