Testování statistických hypotéz

Testování statistických hypotéz umožňuje posoudit, zda experimentálně získaná data vyhovují předpokladu, který jsme před provedením testování učinili. Můžeme například posuzovat, zda platí předpoklad, že určitý lék je účinnější než jiný; nebo zda úroveň matematických dovedností žáků 9. tříd je nezávislá na pohlaví a na regionu.

Příklad

Ověřme hypotézu, že Pražané a Brňané mají srovnatelné schopnosti v matematice, a to pomocí písemného testu, kterého se zúčastní předem určený počet žáků z obou regionů. Je třeba stanovit, jak velký bodový rozdíl bude považován za statisticky významný. I pokud je hypotéza správná, mohou se výsledky v jednotlivých případech lišit. Dokonalá shoda by naznačovala, že při házení poctivou mincí bychom dokázali předvídat výsledek každého druhého hodu, přičemž by byl vždy opačný než výsledek předchozího hodu. Taková situace je sice možná, ale není reálné ji očekávat.

Při rozhodování je důležité minimalizovat riziko vzniku dvou druhů chyb:

chyba typu I – zamítnutí hypotézy, pokud platí,
chyba typu II – přijetí hypotézy, ačkoli neplatí.

Pravděpodobnost, že hypotéza bude přijata, pokud platí (tj. 100 % mínus pravděpodobnost chyby typu I) se nazývá hladina významnosti. Je-li požadována např. hladina významnosti 95 %, pak je nutno vypočítat interval, do něhož bude rozdíl bodového hodnocení (v případě dvou „stejně schopných“ skupin žáků) spadat s pravděpodobností 95 %, a hypotézu zamítnout, právě když naměřený (tj. písemnými testy získaný) bodový rozdíl bude mimo toto pásmo, tj. bude větší.

Vyšší hladina významnosti tedy vyjadřuje vyšší míru snahy nezamítnout hypotézu, pokud platí, což znamená, že při vyšším průměrném bodovém rozdílu hypotézu častěji zamítneme. Tím se sníží pravděpodobnost chyby typu I, ale samozřejmě též zvýší pravděpodobnost chyby typu II. Tato druhá pravděpodobnost navíc závisí na míře, v jaké se realita liší od hypotézy, tj. nakolik se schopnosti obou skupin liší. Pokud by měli Pražané šanci u každého příkladu 70 % a Brňané (zcela nepatrně schopnější) šanci 70,00001 %, že příklad vyřeší a obdrží body, pak by pravděpodobnostní rozdělení naměřeného bodového rozdílu bylo prakticky totožné, jako u dvou stejně schopných skupin. Např. by bylo zhruba stejně pravděpodobné, že v součtu budou o trochu úspěšnější Pražané.

Z toho plyne, že je-li pásmo pro přijetí hypotézy stanoveno tak, aby pravděpodobnost chyby typu I byla jen 5%, bude pravděpodobnost chyby typu II téměř 95%, pokud se realita od hypotézy liší jen málo.

Při určování pásma, ve kterém akceptujeme hypotézu, je nutné zohlednit pravděpodobnosti obou typů chyb.

Pokud je testovaných žáků velmi mnoho, pak i relativně malý rozdíl ve skutečných schopnostech žáků povede se značnou pravděpodobností k zamítnutí hypotézy, že schopnosti obou skupin jsou stejné. Pravděpodobnost chyb bude tedy nízká.
Naopak pokud je testovaných málo, pak i velký bodový rozdíl lze vysvětlit jako náhodu. Pokud výpočet ukáže, že stejný či menší rozdíl by u dvou stejně schopných skupin nastal v 8 % případů (což je více než 5 %), hypotézu nelze zamítnout na hladině významnosti 95 %. V takovém případě nízká pravděpodobnost zamítnutí hypotézy způsobí vysokou pravděpodobnost jejího přijetí i v případě, že je nesprávná. Proto pouze zvlášť velké rozdíly ve schopnostech žáků budou statisticky významné a povedou k zamítnutí hypotézy.

Ze znalosti pravděpodobností chyb lze pomocí Bayesovy věty vypočítat pravděpodobnost, že hypotéza platí. Například pokud se lékařský test na konkrétní nemoc zmýlí (u zdravých i nemocných) v 10 % případů a v populaci je pouze 1 % nemocných, pak přibližně jen 9 % pozitivně otestovaných bude skutečně nemocných.

Statistická hypotéza

Jako statistickou hypotézu chápeme určitý předpoklad o rozdělení náhodných veličin. Jestliže se tyto předpoklady týkají hodnot parametrů rozdělení náhodné veličiny, pak hovoříme o parametrických hypotézách. V opačném případě se jedná o hypotézy neparametrické.

Jsou-li hypotézou specifikovány všechny parametry rozdělení sledované veličiny, tzn. rozdělení je určeno jednoznačně, pak říkáme, že hypotéza je jednoduchá. Pokud není některý parametr rozdělení specifikován jednoznačně, např. je vymezen intervalem, pak hovoříme o složené hypotéze.

Statistický test

Při testování statistických hypotéz se vždy porovnávají dvě hypotézy. První hypotéza, nulová (testovaná), je hypotéza, která se testuje; značí se obvykle $H_{0}$ . Druhou hypotézou je alternativní hypotéza, obvykle značená $H_{1}$ .

Testování platnosti nulové hypotézy $H_{0}$ je založeno na následující úvaze:

Předpokládá se, že hypotéza $H_{0}$ platí.
Rozhodne se, kterým náhodným pokusem (například založeném na náhodném výběru) se hypotéza ověří. Určí se, která náhodná veličina bude výsledkem pokusu.
Stanoví se hladina významnosti $\alpha$ neboli pravděpodobnost (míru rizika) toho, že hypotéza $H_{0}$ bude neoprávněně zamítnuta, ačkoliv platí (viz též dále chyba I. druhu). $\alpha$ se přitom stanovuje jako malé, obvykle 0,05 a nižší (tuto hodnotu zavedl do statistiky v roce 1925 Ronald Fisher ^[1]).
V oboru možných hodnot zvolené náhodné veličiny se určí taková část, do níž za platnosti $H_{0}$ padne výsledek veličiny s pravděpodobností $\alpha$ . Tato část oboru možných hodnot se nazve kritický obor.
Pokud nyní hodnota náhodné veličiny padne do kritického oboru, nulová hypotéza se zamítne, neboť nastal jev, který by za platnosti $H_{0}$ měl jen velmi nízkou pravděpodobnost, jeho výskyt tudíž svědčí proti platnosti nulové hypotézy.

Výsledkem testu je rozhodnutí o nulové hypotéze. Přijetí hypotézy $H_{0}$ znamená, že je považována za možnou. Zamítnutí hypotézy $H_{0}$ je ekvivalentní přijetí hypotézy $H_{1}$ . Testování hypotéz je tedy proces, při němž se na základě náhodného výběru rozhoduje pro testovanou nebo alternativní hypotézu.

Samotný postup testování hypotéz se nazývá statistický test (test významnosti).

Testuje-li se neznámý parametr $\Theta$ , pak se testovaná (nulová) hypotéza zapisuje jako

H_{0}:\Theta =\Theta _{0}\,

Alternativní hypotézu pak formulujeme jedním z následujících způsobů

H_{1}:\Theta =\Theta _{1}\,

H_{1}:\Theta >\Theta _{0}\,

H_{1}:\Theta <\Theta _{0}\,

H_{1}:\Theta \neq \Theta _{0}\,

První formulace alternativní hypotézy $H_{1}$ je používána pouze v případě, kdy se rozhoduje mezi dvěma hodnotami $\Theta _{0}$ a $\Theta _{1}$ . Další dva případy se používají tehdy, má-li dokázat, že odchylka od $\Theta$ je pouze v jednom směru. Alternativní hypotéza formulovaná posledním vztahem pouze popírá testovanou hypotézu $H_{0}$ .

Testovací kritérium

K otestování nulové hypotézy $H_{0}$ proti alternativní hypotéze $H_{1}$ použijeme statistiku $T$ , kterou označujeme jako testovací kritérium. Testovací kritérium je funkce náhodného výběru, která má vztah k nulové hypotéze, a jejíž rozdělení za předpokladu platnosti nulové hypotézy známe. Obor možných hodnot testovacího kritéria rozdělíme na dva neslučitelné obory. Jedním z nich je obor přijetí testované hypotézy $\mathbf {V}$ a druhým je kritický obor $\mathbf {W}$ . Pokud výběrová hodnota testovacího kritéria padne do oboru přijetí testované hypotézy, pak nezamítáme nulovou hypotézu. Padne-li tato hodnota do kritického oboru, nulovou hypotézu zamítáme.

Kritický obor oddělují od oboru přijetí tzv. kritické hodnoty, což jsou kvantily rozdělení testovacího kritéria při platnosti $H_{0}$ .

Místo porovnání hodnoty testovacího kritéria s kritickými hodnotami se pro rozhodování o nulové hypotéze používá též p-hodnota, zejména při použití statistického software. Význam p-hodnoty objasní následující postup.

Nechť testovací kritérium $T$ nabylo při testování hodnoty $t$ .
Obor možných hodnot testovacího kritéria se číslem $t$ $t$ rozdělí na dvě části:
- obor $\mathbf {V'}$ , v němž jsou všechny takové hodnoty testovacího kritéria $T$ , jež svědčí pro platnost $H_{0}$ více než nebo stejně jako číslo $t$
- obor $\mathbf {W'}$ , v němž jsou všechny takové hodnoty testovacího kritéria $T$ , jež svědčí proti platnosti $H_{0}$ více než číslo $t$
P-hodnota je pravděpodobnost, že výsledek testovacího kritéria $T$ za platnosti $H_{0}$ padne do oboru $\mathbf {W'}$ .
Je-li p-hodnota menší než předem stanovené $\alpha$ , nulovou hypotézu zamítáme.

P-hodnota tedy znamená, zjednodušeně řečeno, jaká je pravděpodobnost, že by testovací kritérium dosáhlo své hodnoty, případně hodnot ještě více svědčících proti $H_{0}$ , pokud by $H_{0}$ opravdu platila. Čím menší p-hodnota, tím nepravděpodobnějšího výsledku (za předpokladu platnosti $H_{0}$ ) bylo dosaženo.

Výhoda p-hodnoty je v tom, že její výpočet nezávisí na konkrétní volbě $\alpha$ . Není tak nutné znát kritické hodnoty pro různé volby $\alpha$ , p-hodnota obsahuje dostatečnou informaci sama o sobě.

Chyby testu

Uvedený postup může také vést k chybnému zamítnutí testované hypotézy (tzv. chyba I. druhu) nebo k chybnému přijetí testované hypotézy (tzv. chyba II. druhu).

Pravděpodobnost chyby I. druhu je označována jako hladina významnosti testu.

\alpha =P(T\in \mathbf {W} |H_{0})

Pravděpodobnost, že hodnota testovacího kritéria padne do oboru přijetí $H_{0}$ , jestliže platí $H_{1}$ , tzn. pravděpodobnost chyby II. druhu, je

\beta =P(T\in \mathbf {V} |H_{1})

Doplněk k $\beta$ se nazývá síla testu (hovoříme také o silofunkci), a jako dostatečná hodnota se zpravidla uvažuje 0,8 a vyšší:

1-\beta =P(T\in \mathbf {W} |H_{1})

Postup při testování

Při volbě testovacího postupu je naším cílem, aby chyby testu byly co nejmenší. Lze dokázat, že za daných podmínek vede snižování $\alpha$ k růstu $\beta$ a naopak.

Při testování obvykle postupujeme tak, že nejdříve formulujeme nulovou a alternativní hypotézu. Poté pevně zvolíme hladinu významnosti $\alpha$ (obvykle se volí $\alpha =0,05$ a nižší). Nalezneme vhodné testovací kritérium, odvodíme jeho pravděpodobnostní rozdělení při platnosti $H_{0}$ . Dále vymezíme kritický obor s ohledem na formulaci hypotézy $H_{1}$ . Vypočteme testovací kritérium $T$ a určíme kritické hodnoty testovacího kritéria. Jestliže $T\in \mathbf {W}$ , pak hypotézu $H_{0}$ zamítáme a říkáme, že s pravděpodobností $1-\alpha$ platí hypotéza $H_{1}$ . Pokud $T\in \mathbf {V}$ , pak hypotézu $H_{1}$ považujeme za neprokázanou. V takové případě neprovádíme úsudek o platnosti $H_{0}$ , nechceme-li se zabývat sílou testu.

Moderní statistické programy při výpočtech předkládají přímo pravděpodobnost chyby prvního druhu, označovanou jako „Sig.“ nebo „P-value“, kterou porovnáváme se zvolenou hladinou významnosti (typicky 0,05). Tyto programy hodnoty pro vyšší přehlednost často označují hvězdičkami, jedna hvězdička pro p-value nižší než 0,05, dvě pro p-value nižší než 0,01 a tři pro 0,001.

Odkazy

Reference

↑ SOUKUP, Petr. Nesprávná užívání statistické významnosti a jejich možná řešení. S. 77–104. Data a výzkum - SDA Info [online]. 2010 [cit. 31.7.2012]. Roč. 4, čís. 2, s. 77–104. Dostupné v archivu pořízeném z originálu dne 2015-10-15. ISSN 1802-8152.

Související články

Externí odkazy

Obrázky, zvuky či videa k tématu testování statistických hypotéz na Wikimedia Commons

Pahýl

Tento článek je příliš stručný nebo postrádá důležité informace.
Pomozte Wikipedii tím, že jej vhodně rozšíříte. Nevkládejte však bez oprávnění cizí texty.

[1] SOUKUP, Petr. Nesprávná užívání statistické významnosti a jejich možná řešení. S. 77–104. Data a výzkum - SDA Info [online]. 2010 [cit. 31.7.2012]. Roč. 4, čís. 2, s. 77–104. Dostupné v archivu pořízeném z originálu dne 2015-10-15. ISSN 1802-8152.

[1]