Statistika - ANOVA, test nezávislost kvantitativních veličin
Níže je uveden pouze náhled materiálu. Kliknutím na tlačítko 'Stáhnout soubor' stáhnete kompletní formátovaný materiál ve formátu DOCX.
11. Parametrická jednofaktorová analýza rozptylu (ANOVA). Vysvětlete, kdy se používá a uveďte předpoklady této metody.
= zobecnění dvouvýběrového t-testu o shodě středních hodnot pro více než dva výběry
Balanced ANOVA = všechny výběry mají stejný počet opakování n
one-way ANOVA (jednofaktorová) – porovnáváme střední hodnoty jedné proměnné setříděné podle jednoho faktoru (např. místo měření)
zjišťujeme, zda střední hodnoty sledovaného znaku v různých skupinách (nezávislých náhodných výběrech) se liší nebo ne
Předpoklady:
k nezávislých náhodných výběrů, každý o rozsahu n, všechny výběry pochází z normálního rozdělení se stejnými rozptyly
Hypotézy:
H0 : µ1 = … = µk
H1 : nonH0
Alternativní hypotéza platí pouze v případě, že existuje alespoň jedna dvojice středních hodnot, které se nerovnají.
i, j ∈ {1, …, k}, i ≠ j, taková, že µi ≠ µj
testová statistika
V čitateli je odhad rozptylu σ2 proveden na základě meziskupinové variability
Ve jmenovateli je odhad rozptylu σ2 proveden na základě vnitroskupinové variability
$\overline{X}$ a Sl2 jsou nezávislé -> nezávislé jsou i hodnoty v čitateli a jmenovateli -> jejich podíl, má F-rozdělení
SSH – meziskupinový součet čtverců
SSE – vnitroskupinový (reziduální) součet čtverců
Kritický obor
Porušení H0 vede ke zvýšení čitatele (meziskupinové variability), jmenovatel zůstává stejný -> pro velké hodnoty testové statistiky F zamítáme H0
Příklad použití metody:
Máme tři skupiny studentů, které byly vystaveny různým výukovým metodám, a jejich skóre z testu. Cílem je zjistit, zda výuková metoda ovlivňuje výsledky.
12. Test nezávislosti dvou kvantitativních náhodných veličin. Uveďte předpoklady a použití.
= test nulovosti korelačního koeficientu
Dvourozměrný náhodný výběr z rozdělení náhodného vektoru (X, Y)
Princip metody – pokud je korelační koeficient ρ (X, Y) rovný nule veličiny X a Y jsou statisticky lineárně nezávislé
(X, Y) musí pocházet z dvourozměrného normálního rozdělení
Bodový odhad korelačního koeficientu
Kde SXY je tzv. výběrová kovariance (=bodový odhad kovariance)
Odhad r (X, Y) korelačního koeficientu se nazývá výběrový korelační koeficient a pltí pro něj
− 1 ≤ r (X, Y) ≤ 1
H0 : ρ (X, Y) = 0
Testová statistika R má za platnosti H0 t-rozdělení o n−2 stupních volnosti
$$R = \frac{r(X,Y)}{\sqrt{1 - r^{2}(X,Y)}}\sqrt{n - 2}$$
Použití testu:
Zkoumáme vztah mezi počtem hodin strávených učením a výsledky studentů v testu. Chceme zjistit, zda existuje statisticky významná lineární korelace mezi počtem hodin učení (X) a výsledkem testu (Y).