Bayesova věta

Bayesova věta (alternativně Bayesova formule, Bayesův vzorec) je věta teorie pravděpodobnosti, která udává, jak podmíněná pravděpodobnost nějakého jevu souvisí s opačnou podmíněnou pravděpodobností.^[1] Tj. například jak z pravděpodobnosti, že test vyjde negativně u nemocného člověka, vypočítat pravděpodobnost, že negativně testovaný člověk je nemocný.

V základní podobě řeší Bayesova věta následující typ úloh:

Pokud ve městě s tisíci obyvateli má 20 lidí danou nemoc a lékařský test se zmýlí u zdravého i u nemocného v 10% případů, pak z tohoto tisíce lidí vyjde pozitivně 90% z 20 = 18 nemocných lidí a 10% z 980 = 98 zdravých. Proto u náhodného testovaného člověka, který vyšel pozitivně, je pravděpodobnost, že je skutečně nemocný, $\scriptstyle {\frac {18}{18+98}}$ , tj. necelých 16%.
Kdyby ovšem nemocných nebylo 20, ale 200 (tj. každý pátý), pak by měl test o něco větší průkaznost: pozitivně by vyšlo 80 z 800 zdravých lidí a 180 u 200 nemocných. Pravděpodobnost, že dotyčný je nemocný, by byla $\scriptstyle {\frac {180}{180+80}}$ = 69%.
Kdyby byl nemocný každý pátý a test by byl spolehlivější, takže by se zmýlil (u zdravých a nemocných) jen ve 2% případů, pak by výsledek byl ještě průkaznější: $\scriptstyle {\frac {196}{196+16}}$ = 92%.

Tato věta úzce souvisí s disciplínou matematiky zvanou testování statistických hypotéz. Ta udává, jak vypočítat pravděpodobnost, že nějakou hypotézu – např. že testovaný člověk je zdravý, nebo že dívky a hoši jsou stejně dobří v matematice) – mylně zamítneme, pokud platí, nebo že ji mylně přijmeme, pokud neplatí (ta ovšem závisí na tom, jak moc se hoši a dívky liší v matematických schopnostech). Z toho a z procenta nemocné populace pak Bayesova věta vypočítá, jak pravděpodobně může např. negativně testovaný člověk být nemocný.

Jedno z mnoha použití Bayesovy věty je v oblasti statistické inference (konkrétně Bayesova inference). Věta taktéž položila základy relativně novému směru statistiky – bayesovské statistiky.^[2]

Historie

Poprvé na tuto souvislost upozornil anglický duchovní Thomas Bayes (1702–1761) v posmrtně vydaném článku An Essay towards solving a Problem in the Doctrine of Chances (1763). Roku 1774 větu znovu objevil francouzský matematik a fyzik Pierre-Simon Laplace, nicméně postupně upadla v zapomnění a rozšířila se až v 2. polovině 20. století.^[3] Frekvenční interpretace pravděpodobnosti se poté nazývá klasická či Laplaceova, právě podle Pierre-Simona Laplace.

Znění věty

Nechť $A$ a $B$ jsou náhodné jevy a $\mathrm {P} (B)\neq 0$ . Potom platí

\mathrm {P} (A\mid B)={\frac {\mathrm {P} (B\mid A)\,\mathrm {P} (A)}{\mathrm {P} (B)}}

.

Důkaz

Důkaz věty vychází z definice podmíněné pravděpodobnosti:

\mathrm {P} (A\mid B)={\frac {\mathrm {P} (A\cap B)}{\mathrm {P} (B)}}

, pokud

\mathrm {P} (B)\neq 0

. Symetricky

\mathrm {P} (B\mid A)={\frac {\mathrm {P} (A\cap B)}{\mathrm {P} (A)}}

, pokud

\mathrm {P} (A)\neq 0

.

Vyjádřením pravděpodobnosti průniku v obou rovnicích získáváme $\mathrm {P} (A\mid B)\mathrm {P} (B)=\mathrm {P} (A\cap B)=\mathrm {P} (B\mid A)\mathrm {P} (A)$ . Vyjádřením $\mathrm {P} (A\mid B)$ obdržíme Bayesovu formuli:

\mathrm {P} (A\mid B)={\frac {\mathrm {P} (B\mid A)\mathrm {P} (A)}{\mathrm {P} (B)}}

, pokud

\mathrm {P} (B)\neq 0

.

Alternativní formy Bayesovy věty

Pro všechny alternativní formy Bayesovy věty uvažujme nenulovost jmenovatele.

Rozšířené znění

Mějme náhodné jevy $A$ a $B_{j}$ , pro $j={1,...,k}$ . Nechť jsou jevy $B_{j}$ po dvou disjunktní pro každé $j$ a nechť tvoří celý pravděpodobnostní prostor, tedy ${\sum _{i=1}^{k}\mathrm {P} (B_{i})=1}$ . Potom platí

\mathrm {P} (B_{j}\mid A)={\frac {\mathrm {P} (A\mid B_{j})\,\mathrm {P} (B_{j})}{\mathrm {P} (A)}}

.

Využití doplňku

Při počítání s Bayesovou formulí je výhodné znát následující úpravu, jelikož nemusíme znát pravděpodobnost náhodných jevů, nýbrž pouze jejich pravděpodobnosti podmíněné.

Tato formule spočívá ve vhodné úpravě jmenovatele, tedy

\mathrm {P} (B)=\mathrm {P} (B\mid A)\mathrm {P} (A)+\mathrm {P} (B\mid A^{c})\mathrm {P} (A^{c})

, kde využíváme vztahu

B=(B\cap A)\cup (B\cap A^{c})

.

Po dosazení do původní věty dostáváme

\mathrm {P} (A\mid B)={\frac {\mathrm {P} (B\mid A)\mathrm {P} (A)}{\mathrm {P} (B\mid A)\mathrm {P} (A)+\mathrm {P} (B\mid A^{c})\mathrm {P} (A^{c})}}

.^[4]

Rozdělení doplňku

Tato forma Bayesovy věty vychází z předpokladu Bayesovy věty, tedy že platí $\sum _{i=1}^{k}\mathrm {P} (B_{i})=1$ . Lze ale vyjádřit pravděpodobnost $i$ -tého členu $\mathrm {P} (B_{i})=\sum _{j=1}^{i-1}\mathrm {P} (B_{j})+\sum _{j=i+1}^{k}\mathrm {P} (B_{j})=\mathrm {P} (1-B_{i})=\mathrm {P} (B^{c})$ . Tedy získáváme upravenou verzi Bayesovy věty využívající doplněk. Pro rozložení podmíněné pravděpodobnosti na pravé straně rovnice lze využít větu o úplné pravděpodobnosti.

Mějme neslučitelné náhodné jevy $B_{n}$ , kde $n={1,...,k}$ takové, že pro ně platí $\mathrm {P} (\bigcup _{n=1}^{k}B_{n})=1$ . Pak platí

\mathrm {P} (B_{n}\mid A)={\frac {\mathrm {P} (A\mid B_{n})\mathrm {P} (B_{n})}{\sum _{j}\mathrm {P} (A\mid B_{j})\mathrm {P} (B_{j})}}

.^[5]

Verzi věty lze z konečného počtu náhodných jevů rozšířit i na nekonečně spočetně jevů.

Přidání historie

Přidání jednoho prvku

Formu, která bere v potaz historii, lze odvodit zavedením substituce $B=C\cap H$ a dosazení do znění Bayesovy věty. Získáváme tedy

\mathrm {P} (A\mid C\cap H)={\frac {\mathrm {P} (C\cap H\mid A)\,\mathrm {P} (A)}{\mathrm {P} (C\cap H)}}={\frac {\mathrm {P} (C\cap H\cap A)}{\mathrm {P} (C\cap H)}}={\frac {\mathrm {P} (C\mid A\cap H)\,\mathrm {P} (A\cap H)}{\mathrm {P} (C\mid H)\,\mathrm {P} (H)}}={\frac {\mathrm {P} (C\mid A\cap H)\,\mathrm {P} (A\mid H)\,\mathrm {P} (H)}{\mathrm {P} (C\mid H)\,\mathrm {P} (H)}}={\frac {\mathrm {P} (C\mid A\cap H)\,\mathrm {P} (A\mid H)}{\mathrm {P} (C\mid H)}}

, z čehož získáváme vzorec

\mathrm {P} (A\mid C\cap H)={\frac {\mathrm {P} (C\mid A\cap H)\,\mathrm {P} (A\mid H)}{\mathrm {P} (C\mid H)}}

, ze kterého přeznačením (pro konzistenci) získáváme formu Bayesovy věty zobecňující prvek historie

H

v následující podobě:

\mathrm {P} (A\mid B\cap H)={\frac {\mathrm {P} (B\mid A\cap H)\,\mathrm {P} (A\mid H)}{\mathrm {P} (B\mid H)}}

.

Přidání více prvků

Obdobným způsobem lze přidat konečně mnoho prvků historie $H_{i}$ , respektive i nekonečně spočetně. Můžeme ${\mathcal {H}}$ definovat pomocí součtů jako ${\mathcal {H}}=\sum _{i=1}^{n}H_{i}$ (respektive ${\mathcal {H}}=\sum _{i=1}^{\infty }H_{i}$ ).

Tato forma Bayesovy věty může být užitečná, pokud v příkladu testování na drogy budu mít více testovaných lidí, pak obecně $H_{i}$ označíme výsledek $i$ -tého testu, tedy pokud byl první test pozitivní, výsledek do historie zaneseme například jako $H_{1}=1$ , pokud by byl negativní, pak bychom položili $H_{1}=0$ .

Výsledná forma zobecňující všechny výsledky má podobu

\mathrm {P} (A\mid B\cap {\mathcal {H}})={\frac {\mathrm {P} (B\mid A\cap {\mathcal {H}})\,\mathrm {P} (A\mid {\mathcal {H}})}{\mathrm {P} (B\mid {\mathcal {H}})}}

.

Šancová forma Bayesovy věty

Z definice šance $\mathrm {\mbox{Š}} (A)={\frac {\mathrm {P} (A)}{\mathrm {P} (A^{c})}}={\frac {\mathrm {P} (A)}{1-\mathrm {P} (A)}}$ lze odvodit vzorec poměrů pravděpodobností $\mathrm {P} (H_{1}\mid D):\mathrm {P} (H_{2}\mid D)$ , který má tvar

{\frac {\mathrm {P} (H_{1}\mid D)}{\mathrm {P} (H_{2}\mid D)}}={\frac {\mathrm {P} (H_{1})}{\mathrm {P} (H_{2})}}\cdot {\frac {\mathrm {P} (D\mid H_{1})}{\mathrm {P} (D\mid H_{2})}}

, tedy slovně aposteriorní šance hypotézy

H_{1}

proti hypotéze

H_{2}

je rovna součinu apriorní šance hypotézy

H_{1}

proti hypotéze

H_{2}

a poměru věrohodností hypotézy

H_{1}

proti hypotéze

H_{2}

.

Bayesova věta pro spojité náhodné vektory

Bayesovu větu lze popsat i pomocí hustoty spojitých náhodných vektorů $\mathbf {X}$ a $\mathbf {Y}$ . Tedy podmíněná hustota $\rho _{\mathbf {X} }(x\mid y)$ spojitého náhodného vektoru $\mathbf {X}$ vzhledem k $\mathbf {Y}$ je rovna

\rho _{\mathbf {X} }(x\mid y)={\begin{cases}{\frac {\rho _{\mathbf {Y} }(y\mid x)\,f_{\mathbf {X} }(x)}{f_{\mathbf {Y} }(y)}}{\mbox{ pro }}f_{\mathbf {Y} }(y)\neq 0\\0{\mbox{ jinak.}}\end{cases}}

Podobu Bayesovy věty pro spojité náhodné vektory lze odvodit dosazením vztahu $f(x,y)=h_{\mathbf {Y} }(y\mid x)f_{\mathbf {X} }(x)$ do vztahu podmíněné hustoty $\mathbf {X}$ vzhledem k $\mathbf {Y}$ , tedy $h_{\mathbf {X} }(x\mid y)={\frac {f(x,y)}{f_{\mathbf {Y} }(y)}}$ .^[6]

Příklady použití

Nemocnost

V základní podobě věta řeší úlohy typu: Jistou nákazu má v milionovém městě tisíc lidí. Náhodný člověk byl otestován testem, který se zmýlí v 1% případů, a vyšel pozitivní. Jaká je pravděpodobnost, že je skutečně pozitivní? Podle věty řešení plyne z toho, že při otestování celého města by

Z onoho tisíce nemocných by pozitivně test vyšel 99% * 1000 = 990 lidem.
Z 999000 zdravých obyvatel vyšlo pozitivních 1% * 999000 = 9990.
Pravděpodobnost, že náhodný pozitivně testovaný člověk je nemocný, je proto ${\frac {990}{990+9990}}={\frac {1}{11}}$ , tj.zhruba 9,01%.

Věta tedy tvrdí, že k interpretaci výsledků různých testů (v nejrůznějších odvětvích vědy či lidské činnosti) je potřeba znát nejen výsledek pokusu, ale též mít nějaký názor (tzv. apriorní pravděpodobnost) na to, jak pravděpodobná je testovaná hypotéza. V takto vyhrocených případech může mít apriorní pravděpodobnost dokonce větší vliv na výslednou pravděpodobnost, než samotný výsledek experimentu. Intuitivně lze řešení pochopit tak, že argument pro hypotézu, že dotyčný je zřejmě zdravý (protože jeden z tisíce je nemocný) má v tomto příkladu „desetkrát větší váhu“, než argument pro nemoc (že test se zmýlí jen jedenkrát ze sta), a proto je desetkrát pravděpodobnější, že dotyčný je zdravý.

Věta se dá rozšířit mnoha způsoby, např. na libovolný konečný stavů: člověk může být zdravý, lehce nemocný, vážně nemocný či terminálně nemocný. Je-li dána apriorní pravděpodobnost každého z těchto stavů (např. zastoupení v populaci) a pravděpodobnost pozitivního výsledku pro lidi zdravé, lehce nemocné apod., výsledkem věty je pak aposteriorní pravděpodobnost jednotlivých zdravotních stavů. Není důležité, zda samotný test má více než dva možné výsledky, protože pro výpočet stačí uvážit dva: ten, který vyšel, a možnost, že by vyšel jakýkoli jiný.

Testování na drogy

Nyní si ukažme příklad použití Bayesova pravidla při testování na drogy. Vyjdeme z předpokladů, že test na prokázání drog má senzitivitu 99 % a specificitu 99 %. Test se na první pohled zdá být docela přesný, ale pomocí Bayesovy věty lze ukázat, že netriviální procento testovaných může být nesprávně označeno za uživatele drog. Nechť je v testovaném podniku prevalence 0,5 %, tj. 0,5 % ze zaměstnanců drogy opravdu užívá.

Jaká je pravděpodobnost, že osoba s pozitivním testem drogy opravdu používá?

Označme si uživatele drog jako "A", "N" všechny ostatní. Nechť "+" znamená pozitivní test. Popišme si následující veličiny:

$\mathrm {P} (A)$ pravděpodobnost, že osoba je uživatelem drog (prevalence), tj. $0.005$
$\mathrm {P} (N)$ pravděpodobnost, že osoba není uživatelem drog; zjistíme pomocí doplňkového jevu, tzn. $1-\mathrm {P} (A)=0.995$
$\mathrm {P} (+\mid A)$ pravděpodobnost, že test je pozitivní, když je osoba uživatelem drog; jinými slovy sensitivita testu: $0.99$
$\mathrm {P} (+\mid N)$ je pravděpodobnost, že test bude pozitivní, i přesto, že osoba není uživatelem drog; lze interpretovat jako doplněk k specificitě testu: $0.01$
$\mathrm {P} (+)$ je pravděpodobnost, že test bude pozitivní.

Pravděpodobnost $\mathrm {P} (+)$ sice zadanou nemáme, ale lze ji vypočítat dle výše zmíněné formule:

\mathrm {P} (+)=\mathrm {P} (+\mid A)\cdot \mathrm {P} (A)+\mathrm {P} (+\mid N)\cdot \mathrm {P} (N)

Po dosazení dostáváme výsledek 1,49 %:

\mathrm {P} (+)=0.99\times 0.005+0.01\times 0.995=0.0149.

Díky těmto údajům můžeme vypočítat žádanou pravděpodobnost $\mathrm {P} (A\mid +)$ pomocí Bayesovy věty:

\mathrm {P} (A\mid +)={\frac {\mathrm {P} (+\mid A)\mathrm {P} (A)}{\mathrm {P} (+)}}={\frac {0.99\times 0.005}{0.0149}}=0.3322.

Všimněme si, že i přes vysokou specificitu a senzitivitu je výsledek testu poměrně nepřesný. U zaměstnance podniku s pozitivním testem je jen 33% pravděpodobnost, že je skutečně uživatelem drog.

Specificita a senzitivita

Senzitivita testu (také citlivost testu) nám udává úspěšnost, s níž test zachytí přítomnost sledovaného stavu (nemoci) u daného subjektu. V našem příkladu to znamená, že test správně identifikuje skutečné uživatele drog v 99 % případů.

Specificita testu nám vyjadřuje úspěšnost, s níž test určí případy, u nichž zkoumaný stav (nemoc) nenastává. 99% specificita testu znamená, že test s 99% pravděpodobností správně vyloučí osobu, která drogy nepoužívá.

Bayesovská statistika

Bayesovská statistika je pokročilejší odvětví statistiky, které místo bodových odhadů parametrů z dat uvažuje nějaké pravděpodobnostní rozdělení nad možnými hodnotami parametru. To může být apriorní (známé již před získáním dat) nebo aposteriorní (apriorní rozdělení upravené informacemi zachycenými v datech). Matematicky se tento přechod od apriorního rozdělení a dat k aposteriornímu rozdělení formuluje pomocí podmíněných pravděpodobností a Bayesova věta tedy v bayesovské statistice přirozeně hraje klíčovou roli.

Odkazy

Reference

↑ OBERHELMAN, David D. Stanford Encyclopedia of Philosophy. Reference Reviews. 2001-06-01, roč. 15, čís. 6, s. 9–9. ISSN 0950-4125. doi:10.1108/rr.2001.15.6.9.311. (anglicky)
↑ BERNARDO, José M.; SMITH, Adrian F. M. Bayesian Theory. Hoboken: John Wiley & Sons, Ltd., 2009. ISBN 9780470317716, ISBN 047031771X. (anglicky)
↑ A History of Bayes' Theorem. www.lesswrong.com [online]. LessWrong, 2011-08-29 [cit. 2024-02-19]. Dostupné online. (anglicky)
↑ BAZETT, Trefor. Introduction to Bayes’ Theorem. Cham: Springer International Publishing Dostupné online. ISBN 978-3-030-95792-6.
↑ HRON, Karel; KUNDEROVÁ, Pavla; VENCÁLEK, Ondřej. Základy počtu pravděpodobnosti a metod matematické statistiky. Redakce Tereza Vintrová. 4., doplněné vyd. Olomouc: Univerzita Palackého v Olomouci, 2021. 346 s. ISBN 978-80-244-5990-5. Kapitola Podmíněná pravděpodobnost, s. 37–38.
↑ HRON, Karel; KUNDEROVÁ, Pavla; VENCÁLEK, Ondřej. Základy počtu pravděpodobnosti a metod matematické statistiky. Redakce Tereza Vintrová. 4., doplněné vyd. Olomouc: Univerzita Palackého v Olomouci, 2021. 346 s. ISBN 978-80-244-5990-5. Kapitola Podmíněné rozdělení, s. 125.

Související články

Externí odkazy

Obrázky, zvuky či videa k tématu Bayesova věta na Wikimedia Commons
Seeing Theory - Bayesian Inference – vizualizace Bayesovy věty na několika příkladech (anglicky)

[1] OBERHELMAN, David D. Stanford Encyclopedia of Philosophy. Reference Reviews. 2001-06-01, roč. 15, čís. 6, s. 9–9. ISSN 0950-4125. doi:10.1108/rr.2001.15.6.9.311. (anglicky)

[2] BERNARDO, José M.; SMITH, Adrian F. M. Bayesian Theory. Hoboken: John Wiley & Sons, Ltd., 2009. ISBN 9780470317716, ISBN 047031771X. (anglicky)

[3] A History of Bayes' Theorem. www.lesswrong.com [online]. LessWrong, 2011-08-29 [cit. 2024-02-19]. Dostupné online. (anglicky)

[4] BAZETT, Trefor. Introduction to Bayes’ Theorem. Cham: Springer International Publishing Dostupné online. ISBN 978-3-030-95792-6.

[5] HRON, Karel; KUNDEROVÁ, Pavla; VENCÁLEK, Ondřej. Základy počtu pravděpodobnosti a metod matematické statistiky. Redakce Tereza Vintrová. 4., doplněné vyd. Olomouc: Univerzita Palackého v Olomouci, 2021. 346 s. ISBN 978-80-244-5990-5. Kapitola Podmíněná pravděpodobnost, s. 37–38.

[6] HRON, Karel; KUNDEROVÁ, Pavla; VENCÁLEK, Ondřej. Základy počtu pravděpodobnosti a metod matematické statistiky. Redakce Tereza Vintrová. 4., doplněné vyd. Olomouc: Univerzita Palackého v Olomouci, 2021. 346 s. ISBN 978-80-244-5990-5. Kapitola Podmíněné rozdělení, s. 125.

[1]

[2]

[3]

[4]

[5]

[6]