chared: Character Encoding Detection with a Known Language
Autoři | |
---|---|
Rok publikování | 2011 |
Druh | Článek ve sborníku |
Konference | RASLAN 2011 |
Fakulta / Pracoviště MU | |
Citace | |
www | https://nlp.fi.muni.cz/raslan/2011/paper16.pdf |
Obor | Informatika |
Klíčová slova | character encoding; character encoding detection; charset; Unicode |
Popis | chared je systém, který dokáže detekovat kódování znaků textu dokumentu, za předpokladu, že jazyk dokumentu je znám. Systém podporuje širokou škálu jazyků a nejčastěji používaná kódování znaků. Článek vysvětluje detaily algoritmu, popisuje proces vytváření modelů pro různé jazyky a prezentuje výsledky vyhodnocení na kolekci webových stránek. |
Související projekty: |