Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues
Název česky | Indexování a vyhledávání matematiky v digitálních knihovnách -- Architektura, návrh a škálovatelnost |
---|---|
Autoři | |
Rok publikování | 2011 |
Druh | Článek ve sborníku |
Konference | Intelligent Computer Mathematics Lecture Notes in Computer Science, 2011, Volume 6824/2011 |
Fakulta / Pracoviště MU | |
Citace | |
www | DOI |
Doi | http://dx.doi.org/10.1007/978-3-642-22673-1_16 |
Obor | Informatika |
Klíčová slova | math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS |
Popis | Tento článek dává přehled přístupů a systémů pro vyhledávání matematických formulí v matematických korpusech či na webu. Je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je detailně diskutován. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byl ověřena na korpusu 324,000 odborných matematických článků z archivu arXiv s 112 miliony matematickými formulemi. To představovalo indexování více než dvou bilionů podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene. |
Související projekty: |