Jak Začít?

Máš v počítači zápisky z přednášek
nebo jiné materiály ze školy?

Nahraj je na studentino.cz a získej
4 Kč za každý materiál
a 50 Kč za registraci!




Statistika - lineární regrese

DOCX
Stáhnout kompletní materiál zdarma (153.17 kB)

Níže je uveden pouze náhled materiálu. Kliknutím na tlačítko 'Stáhnout soubor' stáhnete kompletní formátovaný materiál ve formátu DOCX.

15. Lineární regresní model a jeho předpoklady. Metoda nejmenších čtverců. Intervaly spolehlivosti – vysvětlete význam pásu spolehlivosti a predikčního pásu. Koeficient determinace

Lineární regrese

  • Využití při hledání lineární závislosti (přímky) experimentu, který je zatížen náhodnou chybou.

  • Y(x) = β1 + β2x + ϵ(x)

    • Pro každé x (nenáhodné!) z podmnožiny M ∈ R je Y(x) náhodná veličina

    • β1, β2 ∈ R jsou parametry

    • pro každé x ∈ M je ϵ(x) náhodná veličina (chyba měření)

Funkcionální závislost se nazývá regresní funkce η(x)

  • v lineárním případě: η(x) = E[Y(x)] = β1 + β2x

Lineární regresní model

  • Předpoklady:

    • n > 2 (máme více než dva body) a existují i, j ∈ {1, . . . , n} taková, že xi ≠ xj

    • EYj = η(x) = β1 + β2x, j = 1, …, n

    • varYj = σ2 > 0, j = 1, …, n

    • cov(Yi, Yj) = 0, i, j = 1, …, n, i ≠ j

  • Bodové odhady parametrů modelu

    • Hledáme tři bodové odhady pro tři parametry - β1, β2, σ2

  • b1, b2 hledáme metodou nejmenších čtverců (hledáme lokální extrémy funkcí dvou proměnných)

  • bodovým odhadem regresní funkce η(x) je

  • bodové odhady chyb = REZIDUA

    • Součet kvadrátů reziduí Se = REZIDUÁLNÍ SOUČET ČTVERC٨

  • Nestranný odhad rozptylu – pomocí reziduálního součtu čtverců = REZIDUÁLNÍ ROZPTYL

Intervaly spolehlivosti – pás spolehlivosti a predikční pás

  • Pás spolehlivosti kolem regresní přímky

    • = jedná se o plochu ohraničenou grafy dvou funkcí – horní a dolní meze intervalu spolehlivosti jako funkce proměnné x

      • Abychom zkonstruovaly intervaly spolehlivosti pro parametry regresního modelu musíme dodat dvě podmínky

        1. ϵj , j = 1, …, n – jsou vzájemně nezávislé náhodné veličiny

        2. ϵj , j = 1, …, n – mají normální rozdělení N (0, σ2)

      • Pomocí intervalů spolehlivosti lze také testovat nulovost parametrů regresní funkce

      • Oboustranný interval spolehlivosti (1– α)100% pro regresní funkci η(x)

  • Predikční pás spolehlivosti kolem regresní přímky

    • = plocha ohraničená mezemi (1– α)100% intervalů zkonstruovaných přímo pro náhodnou veličinu Y(x)

Koeficient determinace R2

  • Lze jím posoudit kvalitu lineárně regresního modelu – jak dobře vystihuje data


$$R^{2} = 1 - \frac{S_{e}}{S_{t}}$$

  • St = celkový součet čtverců


$$S_{t} = \sum_{j = 1}^{n}{(Y_{j} - \overline{Y})}^{2}$$

  • Koeficient determinace udává, jakou část celkové variability závisle proměnné Y se podařilo lin. regresním modelem vysvětlit

  • Nabývá hodnot 0 až 1 – čím blíže k jedné, tím přesnější model

Témata, do kterých materiál patří