Statistika - lineární regrese
Níže je uveden pouze náhled materiálu. Kliknutím na tlačítko 'Stáhnout soubor' stáhnete kompletní formátovaný materiál ve formátu DOCX.
15. Lineární regresní model a jeho předpoklady. Metoda nejmenších čtverců. Intervaly spolehlivosti – vysvětlete význam pásu spolehlivosti a predikčního pásu. Koeficient determinace
Lineární regrese
Využití při hledání lineární závislosti (přímky) experimentu, který je zatížen náhodnou chybou.
Y(x) = β1 + β2x + ϵ(x)
Pro každé x (nenáhodné!) z podmnožiny M ∈ R je Y(x) náhodná veličina
β1, β2 ∈ R jsou parametry
pro každé x ∈ M je ϵ(x) náhodná veličina (chyba měření)
Funkcionální závislost se nazývá regresní funkce η(x)
v lineárním případě: η(x) = E[Y(x)] = β1 + β2x
Lineární regresní model
Předpoklady:
n > 2 (máme více než dva body) a existují i, j ∈ {1, . . . , n} taková, že xi ≠ xj
EYj = η(x) = β1 + β2x, j = 1, …, n
varYj = σ2 > 0, j = 1, …, n
cov(Yi, Yj) = 0, i, j = 1, …, n, i ≠ j
Bodové odhady parametrů modelu
Hledáme tři bodové odhady pro tři parametry - β1, β2, σ2
b1, b2 hledáme metodou nejmenších čtverců (hledáme lokální extrémy funkcí dvou proměnných)
bodovým odhadem regresní funkce η(x) je
bodové odhady chyb = REZIDUA
-
Součet kvadrátů reziduí Se = REZIDUÁLNÍ SOUČET ČTVERC٨
Nestranný odhad rozptylu – pomocí reziduálního součtu čtverců = REZIDUÁLNÍ ROZPTYL
Intervaly spolehlivosti – pás spolehlivosti a predikční pás
Pás spolehlivosti kolem regresní přímky
= jedná se o plochu ohraničenou grafy dvou funkcí – horní a dolní meze intervalu spolehlivosti jako funkce proměnné x
Abychom zkonstruovaly intervaly spolehlivosti pro parametry regresního modelu musíme dodat dvě podmínky
ϵj , j = 1, …, n – jsou vzájemně nezávislé náhodné veličiny
ϵj , j = 1, …, n – mají normální rozdělení N (0, σ2)
Pomocí intervalů spolehlivosti lze také testovat nulovost parametrů regresní funkce
Oboustranný interval spolehlivosti (1– α)100% pro regresní funkci η(x)
Predikční pás spolehlivosti kolem regresní přímky
= plocha ohraničená mezemi (1– α)100% intervalů zkonstruovaných přímo pro náhodnou veličinu Y(x)
Koeficient determinace R2
Lze jím posoudit kvalitu lineárně regresního modelu – jak dobře vystihuje data
$$R^{2} = 1 - \frac{S_{e}}{S_{t}}$$
St = celkový součet čtverců
$$S_{t} = \sum_{j = 1}^{n}{(Y_{j} - \overline{Y})}^{2}$$
Koeficient determinace udává, jakou část celkové variability závisle proměnné Y se podařilo lin. regresním modelem vysvětlit
Nabývá hodnot 0 až 1 – čím blíže k jedné, tím přesnější model