Empirická distribuční funkce
Empirická distribuční funkce (obvykle označovaná eCDF podle anglického empirical Cumulative Distribution Function) je ve statistice distribuční funkce vytvořená na základě empirické míry určené hodnotami určitého znaku z výběrového souboru.[1] Tato distribuční funkce je schodovitá funkce tvořená skoky velikosti 1/n v každém z n datových bodů. Její hodnota v každém bodě je zlomek, jehož čitatelem je počet pozorování, v nichž je měřená proměnná menší nebo rovna zadané hodnotě, a jmenovatelem je rozsah souboru, N.
Empirická distribuční funkce je odhadem distribuční funkce, která generuje datové body. Podle Glivenkovy–Cantelliho věty konverguje k tomuto podkladovému rozdělení s pravděpodobností 1. Rychlost konvergence empirické distribuční funkce k podkladové distribuční funkci popisují různé matematické věty.
Definice
[editovat | editovat zdroj]Nechť (X1, …, Xn) jsou nezávislé stejně rozdělené náhodné veličiny reálné náhodné proměnné se stejnou distribuční funkcí F(t). Empirická distribuční funkce je pak definována vzorcem[2][3]
kde je počet prvků, které mají hodnotu zvoleného znaku menší nebo rovnou , je charakteristická funkce události A. Pro pevné t je indikátor náhodná proměnná s Bernoulliho rozdělením s parametrem p = F(t); tedy je binomická náhodná proměnná se střední hodnotou nF(t) a rozptylem nF(t)(1 − F(t)). Z toho plyne, že je nevychýlený odhad funkce F(t).
Někteří autoři používají v čitateli zlomku hodnotu :[4][5]
Střední hodnota
[editovat | editovat zdroj]Střední hodnota empirického rozdělení je nestranný odhad střední hodnoty rozdělení populace
která se častěji označuje
Rozptyl
[editovat | editovat zdroj]Rozptyl empirického rozdělení znásobený je nestranný odhad rozptylu rozdělení populace
Střední kvadratická chyba
[editovat | editovat zdroj]Střední kvadratická chyba empirického rozdělení je
kde je odhad a neznámý parametr
Kvantily
[editovat | editovat zdroj]Pokud není celé číslo, pak -tý kvantil je jednoznačný a jen roven
kde je horní celá část čísla (nejmenší celé číslo větší nebo rovné ).
Pokud je celé číslo, pak -tý kvantil není jednoznačný a jeho hodnota může být jakékoli reálné číslo vyhovující nerovnosti
Empirický medián
[editovat | editovat zdroj]Pokud je liché, pak empirický medián je číslo
pokud je sudé, pak empirický medián je číslo
Asymptotické vlastnosti
[editovat | editovat zdroj]Protože poměr (n + 1)/n se pro n jdoucí k nekonečnu blíží k 1, asymptotické vlastnosti z obou výše uvedených definic jsou stejné.
Podle zákona velkých čísel odhad konverguje k F(t) pro n → ∞ skoro jistě pro každou hodnotu t:[2]
Odhad je tedy konzistentní. Tento výraz vyjadřuje bodovou konvergenci empirické distribuční funkce ke skutečné distribuční funkci. Silnější tvrzení poskytuje Glivenkova–Cantelliho věta, která říká, že konvergence je stejnoměrná přes t:[6]
Suprémová norma v tomto výrazu se nazývá Kolmogorovova–Smirnovova statistika pro testování, jak dobře empirické rozdělení vyhovuje předpokládané skutečné distribuční funkci F. Mohou být použity i jiné normy, například L2-norma, která dává Cramérovu–von Misesovu statistiku.
Asymptotická rozdělení lze dále charakterizovat několika různými způsoby:
Centrální limitní věta, říká, že bodově má asymptoticky normální rozdělení se standardní rychlostí konvergence:[2]
Tento výsledek rozšiřuje Donskerova věta, která říká, že pokud empirický proces považujeme za třídu funkcí indexovaných reálným číslem , konverguje v rozdělení ve Skorochodově prostoru ke gaussovskému procesu se střední hodnotou nula , kde B je standardní Brownův můstek.[6] Kovarianční struktura tohoto gaussovského procesu je
Rovnoměrnou konvergenci v Donskerově větě lze kvantifikovat výsledkem známým jako maďarské vnoření:[7]
Rychlost konvergence výrazu lze také kvantifikovat asymptotickým chováním suprémové normy tohoto výrazu. V této oblasti existují další výsledky, například Dvoretzkého–Kieferova–Wolfowitzova nerovnost poskytuje meze tail probabilities of :[7]
Kolmogorov ukázal, že pokud je distribuční funkce F spojitá, pak výraz konverguje v rozdělení k , který má Kolmogorovovo–Smirnovovo rozdělení, které nezávisí na tvaru funkce F.
Ze zákona opakovaného logaritmu plyne další výsledek[7]
a
Intervaly spolehlivosti
[editovat | editovat zdroj]Podle Dvoretzkého–Kieferovy–Wolfowitzovy nerovnosti lze interval, který obsahuje skutečnou distribuční funkci s pravděpodobností , zapsat
Podle výše uvedených mezí můžeme graficky znázornit empirickou distribuční funkci, distribuční funkci a intervaly spolehlivosti pro různé distribuce pomocí libovolné statistické implementace. Následuje syntax z Statsmodel[nedostupný zdroj] pro grafické znázornění empirického rozdělení.
Statistické implementace
[editovat | editovat zdroj]K softwarovým implementacím empirické distribuční funkce patří:
- V programovacím jazyce R lze počítat empirické distribuční funkce, k dispozici je několik metod pro grafické znázornění a tisk a výpočty empirických distribučních funkcí.
- V Mathworks lze použít vykreslení grafu empirické distribuční funkce (cdf)
- jmp ze SAS obsahuje CDF plot, který vytváří graf empirické distribuční funkce
- Minitab, vytváří empirické distribuční funkce
- Mathwave Archivováno 29. 7. 2020 na Wayback Machine. umožňuje napasovat rozdělení pravděpodobnosti na data
- Dataplot, umožňuje vykreslit graf empirické distribuční funkce
- Scipy Archivováno 24. 10. 2021 na Wayback Machine., pomocí scipy.stats umožňuje vykreslit graf rozdělení
- Statsmodels, umožňuje použití statsmodels.distributions.empirical_distribution.ECDF
- Matplotlib, umožňuje použití histogramů pro vytvoření grafu kumulativního rozdělení
- Seaborn obsahuje funkci seaborn.ecdfplot
- Plotly, lze použít funkci plotly.express.ecdf
- Excel umožňuje vykreslit graf empirické distribuční funkce
Odkazy
[editovat | editovat zdroj]Reference
[editovat | editovat zdroj]V tomto článku byl použit překlad textu z článku Empirical distribution function na anglické Wikipedii.
- ↑ A modern introduction to probability and statistics: understanding why and how. London: Springer, 2005. Dostupné online. ISBN 978-1-85233-896-1. OCLC 262680588 S. 219.
- ↑ a b c van der Vaart 1998, s. 265.
- ↑ PlanetMath. planetmath.org [online]. [cit. 2022-04-07]. Dostupné v archivu pořízeném z originálu dne 2021-02-13.
- ↑ Coles 2001, s. 36, Definition 2.4.
- ↑ Madsen 2006, s. 148-149.
- ↑ a b van der Vaart, s. 266.
- ↑ a b c van der Vaart 1998, s. 268.
Literatura
[editovat | editovat zdroj]- COLES, S., 2001. An Introduction to Statistical Modeling of Extreme Values. [s.l.]: Springer. ISBN 978-1-4471-3675-0.
- MADSEN, H. O.; KRENK, S.; LIND, S. C., 2006. Methods of Structural Safety. [s.l.]: Dover Publications. Dostupné online. ISBN 0486445976.
- SHORACK, G.R.; WELLNER, J.A., 1986. Empirical Processes with Applications to Statistics. New York: Wiley. Dostupné online. ISBN 0-471-86725-X.
- VAN DER VAART, A.W., 1998. Asymptotic statistics. [s.l.]: Cambridge University Press. Dostupné online. ISBN 0-521-78450-6.
Související články
[editovat | editovat zdroj]- Càdlàg funkce
- Count data
- Fitting rozdělení
- Dvoretzkého–Kieferova–Wolfowitzova nerovnost
- Empirická pravděpodobnost
- Empirické zpracování
- Kvantil – odhad kvantilů ze vzorku
- Četnost
- Kaplanův–Meierův odhad pro cenzorované procesy
- Funkce přežití
- Q-Q graf
- Znak (statistika)
Externí odkazy
[editovat | editovat zdroj]- Obrázky, zvuky či videa k tématu Empirická distribuční funkce na Wikimedia Commons