Snížení dimenzionality
Snížení dimenzionality (též redukce rozměru apod., anglicky dimensionality reduction) je transformace statistických dat z vysokorozměrného prostoru do nízkorozměrného prostoru tak, aby si nízkorozměrná reprezentace zachovala některé smysluplné vlastnosti původních dat. Práce ve vysokorozměrných prostorech totiž může být z mnoha důvodů nežádoucí; data jsou často řídká v důsledku prokletí dimenzionality, zabírají mnoho místa v paměti a analýza takových dat může být výpočetně příliš náročná. Redukce rozměrů je běžná v oborech, které se zabývají velkým množstvím pozorování a/nebo velkým počtem proměnných, jako je zpracování signálu, rozpoznávání řeči, neuroinformatika a bioinformatika.
V řadě případů se hledá rozměr cílového prostoru blízký intrinsické dimenzi dat, aby snížením dimezionality nedošlo ke ztrátě statisticky významné informace, ale výsledná dimenze přitom byla co nejnižší. Jindy je rozměr cílového prostoru určen praktickými hledisky; například pokud data chceme zobrazit bodovým grafem, budeme nejspíš promítat do dvojrozměrného prostoru. Snížení rozměru lze použít například pro redukci šumu, vizualizaci dat, shlukovou analýzu nebo jako mezikrok pro usnadnění jiných analýz.
Metody se běžně dělí na lineární a nelineární. Lineární přístupy lze dále rozdělit na výběr proměnných, kdy vhodně zvolené dimenze z dat vynecháme, a projektivní metody, konstruující nové proměnné jako lineární kombinace stávajících.[1]
Vybrané metody
[editovat | editovat zdroj]Výběr proměnných
[editovat | editovat zdroj]Výběr proměnných je konceptuálně nejjednodušší lineární metoda redukce dimenzinality. Hledá vhodnou podmnožinu vstupních proměnných (rysů nebo atributů) pro zadaný úkol.
Analýza dat, jako je regrese nebo klasifikace, může v redukovaném prostoru vyjít lépe než v původním prostoru,[2] a přitom se samotné proměnné nijak nemění, což usnadňuje interpretovatelnost.
Lineární projekce
[editovat | editovat zdroj]Projekce (také nazývaná extrakce) transformuje data z vysokorozměrného prostoru do prostoru s menšími rozměry. Transformace dat může být lineární, jako u analýzy hlavních komponent (PCA), ale existuje také mnoho technik nelineárního snižování rozměru.[3]
Základní lineární technika redukce dimenzionality, analýza hlavních komponent, provádí lineární projekci dat do prostoru nižších rozměrů tak, že maximalizuje rozptyl dat v nízkorozměrné reprezentaci. Ponachávají se pak vyextrahované dimenze odpovídající největším vlastním číslům kovarianční matice. Tyto dimenze zároveň mohou v některých případech pomoci data lépe interpretovat, protože určitým způsobem shrnují společnou informaci obsaženou v celé řadě proměných.
Pro nezáporná data může být vhodná další podobná metoda zvaná nezáporná faktorizace matice (non-negative matrix factorization, NMF). Ta rozkládá nezápornou datovou matici na součin dvou nezáporných matic o nižších rozměrech. Používá se zejména tam, kde existují pouze nezáporné signály,[4] jako v astronomii[5] a obecněji např. při odhadu chybějících dat během digitálního zpracování obrazu.
Nelineární metody
[editovat | editovat zdroj]Analýza hlavních komponent může být použita i nelineárním způsobem pomocí vhodných projekčních jader (tzv. kernel trick). Tato technika je schopna konstruovat nelineární zobrazení, která maximalizují rozptyl v datech, a nazývá se anglicky kernel PCA.
Mezi nelineární techniky patří dále metoda Isomap, lokálně lineární embedding (LLE),[6] Laplaceovská vlastní zobrazení (Laplacian eigenmaps) a metody založené na analýze tečného prostoru. Tyto techniky konstruují nízkorozměrnou reprezentaci dat pomocí nákladové funkce, která zachovává lokální vlastnosti dat.
V poslední době byly navrženy také techniky, které namísto definování projekčního jádra předem se snaží toto jádro naučit pomocí semidefinitního programování. Nejvýraznějším příkladem takové techniky je maximum variance unfolding (MVU). Jeho ústřední myšlenkou je zachovat párové vzdálenosti mezi nejbližšími sousedy a zároveň maximalizovat vzdálenosti mezi body, které nejsou nejbližšími sousedy.
Alternativní přístup k zachování vzdáleností minimalizuje rozdíly mezi vzdálenostmi ve vstupním a výstupním prostoru. Mezi důležité příklady takových technik patří klasické vícerozměrné škálování, které je identické s PCA; Isomap, která využívá geodetické vzdálenosti v datovém prostoru; difúzní projekce (diffusion maps) využívající tzv. difúzní vzdálenosti v datovém prostoru; t-SNE, které minimalizuje divergenci distribucí párů bodů; a analýza křivočarých komponent (curvilinear component analysis).
Ještě jiný nelineárních přístup k redukci rozměrů spočívá v použití autoenkodérů, speciálního druhu dopředných neuronových sítí se skrytou vrstvou v podobě jakéhosi úzkého hrdla. Dimenze tohoto úzkého hrdla určuje redukovanou dimenzi dat.
Reference
[editovat | editovat zdroj]V tomto článku byl použit překlad textu z článku Dimensionality reduction na anglické Wikipedii.
- ↑ LIU, Huan; MOTODA, Hiroshi. Feature Extraction, Construction and Selection: A Data Mining Perspective. Boston, MA: Springer 410 s. (The Springer International Series in Engineering and Computer Science). ISBN 978-1-4613-7622-4, ISBN 978-1-4615-5725-8.
- ↑ SULAYES, Antonio Rico. Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution. Revista Ingeniería Electrónica, Automática y Comunicaciones ISSN: 1815-5928. 2017, roč. 38, čís. 3, s. 26–35. Dostupné online [cit. 2025-01-11]. ISSN 1815-5928. (španělsky)
- ↑ Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. ISBN 0-12-369446-9
- ↑ LEE, D. D.; SEUNG, H. S. Learning the parts of objects by non-negative matrix factorization. Nature. 1999-10-21, roč. 401, čís. 6755, s. 788–791. PMID: 10548103. Dostupné online [cit. 2025-01-11]. ISSN 0028-0836. DOI 10.1038/44565. PMID 10548103.
- ↑ ALBRECHT, Andreas; BERNSTEIN, Gary; CAHN, Robert. Report of the Dark Energy Task Force. [s.l.]: [s.n.] Dostupné online.
- ↑ ROWEIS, S. T.; SAUL, L. K. Nonlinear dimensionality reduction by locally linear embedding. Science (New York, N.Y.). 2000-12-22, roč. 290, čís. 5500, s. 2323–2326. PMID: 11125150. Dostupné online [cit. 2025-01-11]. ISSN 0036-8075. DOI 10.1126/science.290.5500.2323. PMID 11125150.