Reproducible experiments with Learned Metric Index Framework

Varování

Publikace nespadá pod Fakultu sportovních studií, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Autoři	SLANINÁKOVÁ Terézia ANTOL Matej OĽHA Jaroslav DOHNAL Vlastislav LADRA Susana MARTÍNEZ-PRIETO Miguel A.
Rok publikování	2023
Druh	Článek v odborném periodiku
Časopis / Zdroj	Information systems
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
www	https://www.sciencedirect.com/science/article/pii/S0306437923000911
Doi	http://dx.doi.org/10.1016/j.is.2023.102255
Klíčová slova	Reproducible paper;Index structures;Learned index;Unstructured data;Content-based search;Metric space
Popis	Tato práce je doprovodným reprodukovatelným článkem předchozího článku (Antol a kol., 2021), ve kterém jsme představili alternativu k tradičnímu paradigmatu vyhledávání podobnosti v metrických prostorech nazvanou Learned Metric Index. Inspirováni pokrokem v naučeném indexování strukturovaných dat jsme použili modely strojového učení, které nahradily rozhodování v podobnostním indexu pomocí pivotů, a postavili tak vyhledávání podle podobnosti jako klasifikační problém. Tato implementace se ukázala být více než konkurenceschopná s konvenčními metodami, pokud jde o rychlost a úplnost odpovědi, což dokazuje, že tento koncept je životaschopný. Cílem této publikace je zveřejnit náš zdrojový kód, datové sady a experimenty. Za tímto účelem vytváříme kolekci softwarových knihoven pro Python3, reprodukovatelných experimentálních souborů YAML a základních souborů JSON, které jsou sdruženy v obrazu Docker - Learned Metric Index Framework (LMIF) - který lze spustit pomocí libovolného operačního systému kompatibilního s Dockerem na procesoru s pokročilými vektorovými rozšířeními (AVX). Představujeme protokol reprodukovatelnosti našich experimentů s využitím LMIF a poskytujeme bližší pohled na experimentální proces. Dále představujeme nové experimentální výsledky spuštěním zde zavedeného protokolu reprodukovatelnosti a diskutujeme rozdíly s výsledky uvedenými v naší primární práci (Antol et al., 2021). Nakonec předkládáme argument, že tyto výsledky lze považovat za slabě reprodukovatelné (v obou metrikách výkonnosti), protože poukazují na stejné závěry odvozené v primární práci. [Překlad s pomocí deepl.com]
Související projekty:	Centrum excelence pro kyberkriminalitu, kyberbezpečnost a ochranu kritických informačních infrastruktur e-Infrastruktura CZ Rozvoj technik pro zpracování dat pro podporu vyhledávání, analýz a vizualizací rozsáhlých datových souborů s využitím umělé inteligence Naučené indexy pro podobností hledání