Předmět Biostatistika II (MB120P102)
Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu MB120P102 - Biostatistika II, Přírodovědecká fakulta, Univerzita Karlova v Praze (UK).
Top 10 materiálů tohoto předmětu
Materiály tohoto předmětu
Materiál | Typ | Datum | Počet stažení |
---|
Další informace
Sylabus
Zásady Úvod: typy problémů, typická datová struktura.Srovnání analýzy jednorozměrných a mnoho rozměrných dat. Podobnosti a rozdíly.Základní struktura je tabulka druhy x stanoviště (jiná typická struktura: znaky x taxony/individua). Representace stanovišť jako bodů v prostoru vymezeném druhy jako osami.Jak v této tabulce najít strukturu (co to je struktura: například korelace mezi proměnnými). To je možné jen tehdy, jsou-li mezi proměnnými (např. výskyty různých druhů) nějaké vztahy (korelace, ale ne nutně lineární). Mnohorozměrné etchniky selhávají, pokud mezi proměnnými korelace nejsou.Dvojí použití: Vytváření hypotéz (starší), testování hypotéz (Monte Carlo testy, kovariáty).Co je třeba mít na paměti: mnoho rozhodovacích kroků. Je třeba vědět, co rozhodnutími ovlivňuji, a musím vědět, proč činím jaké volby. Projekci vícerozměrného objektu na plátno lze učinit mnoha ekvivalentními způsoby.Výpočet nelze provést "špatně", lze jen deformovat prostor vztahů mezi druhy a stanovišti různým způsobemAnalýza hlavních komponent jako příklad mnohorozměrné techniky Problém: regrese/korelace mezi interkorelovanými proměnnými: hledat strukturu v korelacíchKorelace: body nejsou v prostoru umístěny náhodně, lze jimi proložit přímku. Použití této přímky k transformaci soustavy souřadnic.Podíl variability vysvětelný osami. Závisí na počtu proměnných (a i počtu případů). Důvody.Nové osy.Vlastnosti nových os: jsou nekorelované (na sebe kolmé), uspořádané podle klesajícího podílu na variabilitě souboru (variabilitu je možné rozkládat na osy právě proto, že tyto jsou nekorelované).Jaké jsou jednotky nově nalezených os, kde jsou nuly.Co je výsledkem PCA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu determinace, 2. vztah nových a starých os (m x m matice) - jak přepočítat souřadnice, 3. skóry bodů/objektů - transformované souřadnice (n x m matice).Grafy, Biplot. Jak je číst, typy biplotů.Jak vypadá PCA, když jsou korelace velké, když jsou korelace malé. I malý podíl vysvětlené variance může být informativní (je-li proměnných hodně).Standardisace proměnných (korelace, kovariance): jsou-li každá v jiných jednotkách (nezbytnost). Jsou-li ve stejných jednotkách: chci-li dát váhu proměnné podle jejích průměrných hodnot.Standardisace po stanovištích: jsou-li mezi stanovišti velké rozdíly v ceklkové hodnotě všech proměnných (příklad pokryvnost)Transformace dat.Interpretace os: je třeba na základě vnější informace (znalost ekologie druhů, znalost stanovišť). Pozor na argumentaci kruhem.Korelace os s měřenými daty o prostředí.Podmínky PCA: linearita závislosti!Unimodální technikyPředpoklad PCA: linearita. Jaké typické nelinearity je třeba ošetřit.Ekologické gradienty: druhy mají svá maxima a jejich četnost klesá v obou směrech od maxima. Jak vypadá vztah mezi četnostmi druhů vzájemně.Co dělá PCA v případě dlouhých gradientů (horseshoe effects, korelace nulami).Korekce: předpoklad unimodálního modelu. Dva přístupy: (i) Gausovská ordinace, (ii) metody vážených průměrů (korespondenční analýza).Jak se provádí CA. Je to stejná logika jako při výpočtu hodnot prostředí z pomocí Ellenbergových čísel.Posice snímků na gradientu -> skóry druhů (regresní problém; součet součinů četností druhu a posice všech jeho výskytů) -> přepočtené posice snímků (kalibrační problém; součet součinů četností druhů ve snímku a jejich průměrné posice).Co je výsledkem CA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu determinace, 2. optima druhů na nových osách (m x m matice), 3. skóry stanovišť na nových osách- (n x m matice).Interpretace os, charakteristická čísla (podíl vysvětlené variability).Podmínky CA: rovnoměrná optima, rovnoměrné posice snímků, stejné tolerance, stejné maximální abundance.Biplot/joint plot a jeho interpretace v lineární a unimodální situaci. Co znamenají posice druhů daleko od počátku.Nedostatky CA: druhá osa je často nelineární funkcí osy první, komprese gradientu u krajů: korekce v detrended correspondence analysis (DCA). Velmi robustní technika.Downweighting of rare species (obvykle je vhodné aktivovat)Diagnostika vhodnosti modelu: jak se rozhodnout, který model je správný. Odhad délky gradientu. V jakých jednotkách se gradient měří. Dlouhé gradienty, krátké gradienty. Vynést četnost druhu proti posici stanoviště na gradientu.Korelace os s měřenými daty o prostředí - lze exportovat a analyzovat v libovolném statistickém programu.Přímé techniky: použití informace o prostředí při konstrukci hlavních osPCA, DCA: identifikace gradientu pouze z dat o druzích (za lineárního nebo unimodálního modelu) a jeho dodatečná korelace s pasivními parametry prostředí (regrese na hlavních komponentách). Korelace s daty o prostředí.U těchto je interpretace os vždy trochu problém: nepřímá inference.Přitom data o prostředí (nezávislé proměnné) často existují. Přímá gradientová analýza: vztahy mezi druhy a vnějšími faktoryjednorozměrný případ (regrese, jednoduchá, mnohonásobná) - pro jeden druh a jeden faktor prostředí.mnohorozměrný analog: více závislých proměnnýchKanonické techniky: lineární RDA (kanonická varianta PCA) a unimodální CCA (kanonická varianta CA) : získání hlavních os s dodatečnou podmínkou: ten směr největší variability souboru druhů, který je korelován s proměnnými prostředí. Pracuje se o oběma tabulkami: jak najít vztah mezi oběma a strukturu v obou.Rozdíl od dodatečné korelace s pasivními parametry prostředí: v kterém okamžiku použiju nezávislou informaci o prostředíKanonická ordinace: kanonické (constrained) osy, nekanonické osy. Počet proměnných a počet kanonických os. Rozklad celkové variability.Předpoklad použití: linearita závislosti mezi proměnnými prostředí a hlavními osami. (V RDA jsou všechny vztahy lineární; jak je to v CCA)Interkorelace mezi vysvětlujícími proměnnými: inflační faktor (problém mnohorozměrné regrese - jak vybrat vhodné proměnné) - viz víc dáleNezávislé proměnné mohou být kategoriální nebo spojité.Kódování nominálních proměnných: n-1 kódovacích proměnných.Statistické testy v mnohorozměrných technikách: úvod Proč mnohorozměrné testy: vyhnout se mnohonásobnému testováníTesty signifikance - testuji nenáhodnost uspořádání dat o druzích a dat o proměnných prostředí - tj. závislých a nezávislých proměnných (nulová H: všechna uspořádání mají stejnou šanci).Co to je signifikance: šance toho, že dostanu svoje data jako výsledek náhody. Co znamená náhoda (absence závislosti - formulace nulové hypotézy). Konstrukce testového kritéria a rozdělení tohoto kritéria za předpokladu nulové hypotézy.Permutační testy - numerická konstrukce rozdělení testového kritéria. Permutační testy jsou testy o vzájemném uspořádání dvou nebo více proměnných. Permutované datové soubory jsou všechny stejně pravděpodobné za platnosti H0.Test první kanonické osy, testy všech os: rozdíly, vhodnost v různých situacíchAnalýza s kovariátami (parciální analýza)Jak odstranit vlivy prostředí, které nejsou předmětem studia (jejichž vliv je znám, nebo je nezajímavý a nebo může skrýt zajímavý vliv nějaké jiné veličiny).v lineárním modelu s jednou závislou proměnnou: parciální regresní koeficienty.Zobecnění pro mnohorozměrnou situaci: zavedení kovariát. Odlišení zajímavých nezavislých proměnných ("proměnných prostředí") a nezajímavých nezávislých proměnných (kovariát).Rozklad vysvětlené variability jsou-li v modelu kovariáty.Kovariáty v korelativních datech: problém interkorelace mezi kovariátami (=nezajímavými nezávislými proměnnými ) a proměnnými prostředí (=zajímavými nezávislými proměnnými)Použití kovariát k separaci rozdílu mezi bloky, časy záznamu, plochami atd.: zejména při zpracování dat z pokusů.Testy s kovariátami: oddělení efektu kovariát a proměnných prostředí.Jsou-li kategoriální, je to jednoduché: Permutace v blocích (design-based permutation).Jinak: permutace residuálů po odstranění efektu kovariát (model-based permutations).Postupný výběr nezávislých proměnnýchProblém regrese s mnoha proměnnými: jak mezi nimi vybrat, jsou-li korelované. Korelace znamená, že ne všechny kombinace prediktorů existují (že pro ně jsou k disposici pozorování závislé veličiny).Mnohonásobná lineární regrese: Koeficient determinace, regresní koeficienty závisí na všech ostatních proměnných v rovniciZpůsoby výběru nejlepších prediktorů. Postupný výběr nezávislých proměnných.Nemusí nutně vést ke globálně nejlepšímu řešení. Každá do rovnice zahrnutá proměnná shrne i variabilitu, která v dvourozměrné analýze je připsatelná nějaké jiné (s ní korelované) proměnné.Jak se provede v CANOCO: jak poznat příspěvky jednotlivých proměnných: change in fit , test signifikance (model-based test).Má kritérium být přísné nebo měkké: výhody a nevýhody.Statistické testy v mnohorozměrných technikách: speciální případyPrincip permutací: je třeba zcela zachovat strukturu dat za předpokladu nulové hypotézy.Pokud nezachovám strukturu dat (tj. úplně randomisované v situaci, kdy být nemají): jsou příliš liberální, protože ruší víc závislostí než předpokládá nulová H.Speciální případy v randomisačních testech.I. Permutace v blocích. Design-based permutations.II. Vztahy mezi plochami v prostoru - autokorelace. Jednotlivé plochy nejsou nezávislé v prostoru nebo v čase. V takovém případě může být korelace mezi proměnnými prostředí a druhovým složením dána pouze prostorovou závislostí v obou typech dat nezávisle. Na tuto závislost je třeba brát ohled v permutačních testech: stejně jako při testech bloků nebo časových řad. žešení:III. Hierarchická struktura dat: split-plot randomisace. Dvě nebo více úrovní variability: mezi subjekty a uvnitř subjektů. Jak se ošetří v randomisačním testu. Na jaké úrovni jsou zaznamenávány jaké proměnné prostředí. Počet stupňů volnosti/ nezávislých pozorování pro různé testy.IV. Opakované záznamy v čase: analogie split-plot randomisace.Použití kanonických mnohorozměrných technik pro vyhodnocení dat z manipulativních pokusů (analogie ANOVA) Jaké typické mnohorozměrné situace: závislých proměnných je více, a jsou korelované (např. pokus testující vliv hnojení na floristické složení, ale i např. pokus testující vliv hnojení na kytky v květináči, zaznamenávám-li pro jednu kytku víc parametrů)Problém: mnohonásobné testování.Mnohorozměrná analogie jednocestné ANOVA: typicky pro kategoriální nezávislé (jak kódovat viz výše).Jak technicky provést: jedna nezávislá proměnná (proměnná "prostředí") a Monte Carlo test.Použití kovariát k odfiltrování rozdílů mezi bloky, časy záznamu, plochami atd.Opakovaná měření (repeated measurements) téhož objektu: pozor! nejsou to nezávislé hodnoty. Opakovaným měřením se nezvyšuje počet případů ani počet stupňů volnosti pro stanovení vlivu ošetření.Zajímá mě efekt ošetření a interakce ošetření * čas. "BACI" designs. Jakým způsobem randomisovat.Dvoucestná ANOVA: při dvou nezávislých proměnných by Monte Carlo test dal jen celkový efekt obou. Přitom jsou zajímavé právě separované efekty.Řešení: opět kovariáty: provést parciální Monte Carlo test. Typy randomisací.Analogie analýzy kovariance.3 důležitá rozhodnutí při testování složitých dat z pokusů: (i) co bude testovaná proměnná prostředí, (ii) co budou kovariáty, (iii) jaký typ randomisace. (krom rozhodnutí uvedených níže!). Při zpracování dat z jednoho pokusu je často třeba provést víc testů (v principu každému členu v modelu ANOVA odpovídá samostatný test).Úvod do použití software na mnohorozměrné analýzyPříprava dat pro analýzu, struktura, import do Cornellovského formátujak zacházet s programovým souborem CANOCO, důležité volbyjak zacházet s programovým souborem CanoDraw: zobrazení výstupu z analýzy (to nejsou jen biploty!)Canodraw: analytické možnostiDůležitá rozhodnutí v mnohorozměrné analýze (týká se všech analýz, přímých i nepřímých)
Požadavky
Analýza dat z vlastní práce a její prezentace. (V případě potřeby dodáme vhodná data pro analýzu.)Doplňovací test.
Garant
prof. RNDr. Tomáš Herben, CSc.
Vyučující
prof. RNDr. Tomáš Herben, CSc.doc. RNDr. Zuzana Münzbergová, Ph.D.