Recent Czech Web Corpora

Varování

Publikace nespadá pod Fakultu sportovních studií, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Autoři	SUCHOMEL Vít
Rok publikování	2012
Druh	Článek ve sborníku
Konference	6th Workshop on Recent Advances in Slavonic Natural Language Processing
Fakulta / Pracoviště MU	Fakulta informatiky
Citace	SUCHOMEL, Vít. Recent Czech Web Corpora. In Aleš Horák, Pavel Rychlý. 6th Workshop on Recent Advances in Slavonic Natural Language Processing. Brno: Tribun EU, 2012, s. 77-83. ISBN 978-80-263-0313-8.
www	https://nlp.fi.muni.cz/raslan/2012/paper11.pdf
Obor	Jazykověda
Klíčová slova	web corpora; czech corpus
Popis	We introduce the largest Czech text corpus for language research – czTenTen12 with 5.4 billion tokens. A brief comparison with other recent Czech corpora follows.
Související projekty:	Temporální aspekty znalostí a informací Analýza přirozeného jazyka v prostředí internetu Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum