Bevezetés

Ez a modul folytatja a hipotézis tesztelés tárgyalását, ahol egy adott állítás vagy hipotézis generálódik egy populációs paraméterről, és mintstatisztikákat használnak a hipotézis valószínûségének felmérésére. A hipotézis a rendelkezésre álló információkon és a kutató meggyőződésén alapszik a populációs paraméterekkel kapcsolatban. Az itt figyelembe vett specifikus tesztet varianciaanalízisnek (ANOVA) nevezzük, és olyan hipotézispróba, amely alkalmas egy folyamatos változó átlagainak összehasonlítására két vagy több független összehasonlító csoportban. Például egyes klinikai vizsgálatokban kettőnél több összehasonlító csoport létezik. Az asztma új gyógyszerének értékelésére irányuló klinikai vizsgálat során a kutatók összehasonlíthatják a kísérleti gyógyszert egy placebóval és egy szokásos kezeléssel (azaz a jelenleg alkalmazott gyógyszerrel). Egy olyan megfigyelési tanulmányban, mint például a Framingham Heart Study, érdekes lehet összehasonlítani az átlagos vérnyomást vagy az átlagos koleszterinszintet alulsúlyos, normál testsúlyú, túlsúlyos és elhízott személyeknél.

csoport csoport

A kettőnél több független eszköz különbségének tesztelésére szolgáló technika a korábban tárgyalt két független mintamódszer kiterjesztése, amely akkor vonatkozik, amikor pontosan két független összehasonlító csoport van. Az ANOVA technika akkor alkalmazható, ha kettő vagy kettőnél több független csoport van. Az ANOVA eljárást használják az összehasonlító csoportok átlagainak összehasonlítására, és az előző szakaszokban tárgyalt forgatókönyveknél alkalmazott öt lépéses megközelítést alkalmazzák. Mivel több mint két csoport létezik, a tesztstatisztika kiszámítása jobban érintett. A vizsgálati statisztikának figyelembe kell vennie a mintaméreteket, a minta átlagát és a minta szórását az egyes összehasonlító csoportokban.

Ha valaki a mondjuk három csoport között megfigyelt eszközöket vizsgálja, akkor csábító lehet három külön csoportonkénti összehasonlítást végezni, de ez a megközelítés helytelen, mert ezek az összehasonlítások nem veszik figyelembe az összes adatot, és növeli annak valószínűségét téves következtetés, hogy vannak statisztikailag szignifikáns különbségek, mivel minden egyes összehasonlítás növeli az I. típusú hiba valószínűségét. A varianciaanalízis elkerüli ezeket a problémákat, ha egy globálisabb kérdést tesz fel, vagyis hogy vannak-e szignifikáns különbségek a csoportok között, különösképpen nem foglalkozva a két csoport közötti különbségekkel (bár vannak további tesztek, amelyek ezt megtehetik, ha a variancia-elemzés azt mutatja, hogy vannak különbségek a csoportok között).

Az ANOVA alapvető stratégiája, hogy szisztematikusan megvizsgálja az összehasonlítható csoportokon belüli változékonyságot, és az összehasonlított csoportok közötti változékonyságot is.

A modul befejezése után a hallgató képes lesz:

  1. Végezze el kézzel a varianciaanalízist
  2. A varianciaanalízis eredményeinek megfelelő értelmezése
  3. Különbséget kell tenni egy és két faktor varianciaanalízis között
  4. Határozza meg a megfelelő hipotézisvizsgálati eljárást az eredményváltozó típusa és a minták száma alapján

Vegyünk egy példát négy független csoporttal és egy folyamatos eredménymérővel. A független csoportokat meghatározhatja a résztvevők egy bizonyos jellemzője, például a BMI (pl. Alsúly, normál testsúly, túlsúly, elhízás) vagy a kutató (pl. A résztvevőket véletlenszerűen randomizálják a négy versengő kezelés egyikére, hívják őket A, B, C és D). Tegyük fel, hogy az eredmény szisztolés vérnyomás, és meg akarjuk vizsgálni, hogy van-e statisztikailag szignifikáns különbség az átlagos szisztolés vérnyomásban a négy csoport között. A mintaadatok a következőképpen vannak rendezve:

1. csoport

2. csoport

3. csoport

4. csoport

Minta nagysága

Minta átlag

Minta szórás

Az ANOVA érdeklődésének hipotézisei a következők:

ahol k = a független összehasonlító csoportok száma.

Ebben a példában a hipotézisek a következők:

Az ANOVA nullhipotézise mindig az, hogy nincs különbség az eszközökben. A kutatás vagy az alternatív hipotézis mindig az, hogy az eszközök nem mindegyike egyenlő, és általában szavakkal, és nem matematikai szimbólumokkal írják. A kutatási hipotézis megragad minden eszközbeli különbséget, és magában foglalja például azt a helyzetet, amikor mind a négy eszköz egyenlőtlen, ahol az egyik különbözik a másik háromtól, ahol kettő különbözik stb. A fent bemutatott alternatív hipotézis a nullhipotézisben meghatározott összes eszköz egyenlőségén kívül minden lehetséges helyzetet megragad.

Tesztstatisztika az ANOVA-hoz

A H0 vizsgálatának vizsgálati statisztikája: μ1 = μ2 =. = μk:

és a kritikus érték megtalálható az F eloszlás valószínűségi értékeinek táblázatában df1 = k-1, df2 = N-k dimenzióval (szabadságfok). A táblázat megtalálható az "Egyéb források" részben az oldal bal oldalán.

A tesztstatisztikában nj = a minta nagysága a j-edik csoportban (pl. J = 1, 2, 3 és 4, ha 4 összehasonlító csoport van), a minta-átlag a j-edik csoportban, és a teljes átlagos. k jelentése a független csoportok száma (ebben a példában k = 4), és N az elemzés során megfigyelt összes megfigyelés számát jelenti. Megjegyezzük, hogy N nem a populáció méretére vonatkozik, hanem az elemzés teljes mintaméretére (az összehasonlító csoportok mintaméreteinek összege, például N = n1 + n2 + n3 + n4). A tesztstatisztika bonyolult, mert magában foglalja az összes mintaadatot. Bár a kiterjesztést nem könnyű meglátni, a fent bemutatott F statisztika a teszt statisztika általánosítása, amelyet pontosan két eszköz egyenlőségének tesztelésére használtak.

JEGYZET: Az F tesztstatisztika egyenlő változékonyságot feltételez a k populációkban (vagyis a populációvariációk egyenlőek, vagy s1 2 = s2 2 =. = Sk 2). Ez azt jelenti, hogy az eredmény az egyes összehasonlító populációkban egyformán változó. Ez a feltételezés megegyezik azzal a feltételezéssel, amelyet a tesztstatisztika megfelelő alkalmazásával feltételeztek két független eszköz egyenlőségének tesztelésére. Meg lehet becsülni annak valószínűségét, hogy az egyenlő eltérések feltételezése igaz, és a teszt a legtöbb statisztikai számítási csomagban elvégezhető. Ha a k összehasonlító csoportban a variabilitás nem hasonló, akkor alternatív technikákat kell alkalmazni.

Az F statisztikát úgy számoljuk ki, hogy az úgynevezett "kezelés közötti" változékonyság és a "maradék vagy hiba" változékonyság arányát vesszük. Innen ered az eljárás neve. A varianciaanalízis során az átlagok különbségét teszteljük (H0: az átlagok egyenlőek, szemben a H1: az átlagok nem egyenlőek) az adatok változékonyságának értékelésével. A számláló rögzíti a kezelés változékonyságát (vagyis a minta átlagának különbségeit), és a nevező tartalmazza az eredmény változékonyságának becslését. A tesztstatisztika egy olyan mérőszám, amely lehetővé teszi számunkra, hogy felmérjük, hogy a minta átlagai (számláló) közötti különbségek meghaladják-e azt, amit véletlenül várnánk, ha a nullhipotézis igaz. Felidézve a két független mintatesztet, a tesztstatisztikát úgy számítottuk ki, hogy a mintaátlagok (számláló) különbségének és az eredmény változékonyságának arányát vettük figyelembe (Sp becsült).

Az ANOVA F tesztjének döntési szabálya hasonló módon kerül felállításra, mint a t tesztekre megállapított döntési szabályok. A döntési szabály ismét a jelentőség szintjétől és a szabadság fokától függ. Az F statisztikának két fokú szabadsága van. Ezeket df1-nek és df2-nek nevezzük, és hívjuk őket számláló, illetve nevező szabadsági fokoknak. A szabadság fokát a következőképpen határozzák meg:

ahol k az összehasonlító csoportok száma és N az elemzés során megfigyelt összes szám. Ha a nullhipotézis igaz, akkor a kezelés variációja (számláló) nem haladja meg a maradék vagy hibaváltozást (nevező), és az F statisztika kicsi. Ha a nullhipotézis hamis, akkor az F statisztika nagy lesz. Az F teszt elutasítási régiója mindig az eloszlás felső (jobb oldali) farka részén található, az alábbiak szerint.

Az F-teszt elutasítási régiója a = 0,05, df1 = 3 és df2 = 36 (k = 4, N = 40)

Az itt ábrázolt forgatókönyv esetében a döntési szabály a következő: H0 elutasítása, ha F > 2.87.

Ezután az ANOVA eljárást az öt lépéses megközelítéssel szemléltetjük. Mivel a tesztstatisztika kiszámítása érintett, a számításokat gyakran egy ANOVA táblázatba rendezik. Az ANOVA táblázat az adatok variációjának összetevőit bontja a kezelések közötti eltérésekre és a hibákra vagy a maradék variációkra. A statisztikai számítási csomagok ANOVA táblákat is készítenek az ANOVA szabványos kimenetének részeként, és az ANOVA táblázatot a következőképpen állítják fel: