8.1 - A Chi-Square függetlenségi teszt

Hogyan tesztelhetjük két kategorikus változó függetlenségét? Ez a Chi-négyzet függetlenségi teszt segítségével történik.

chi-square

Mint minden korábbi statisztikai tesztnél, meg kell határoznunk null és alternatív hipotéziseket. Továbbá, amint megtudtuk, a nullhipotézis az, amit feltételezünk igaznak, amíg bizonyítékunk nem áll ellene. Ebben a leckében arra vagyunk kíváncsiak, hogy két kategorikus változó összefügg-e vagy társul-e (azaz függ). Ezért, amíg nem áll rendelkezésünkre bizonyíték arra nézve, hogy vannak, feltételeznünk kell, hogy nincsenek. Ez a motiváció a Chi-négyzet függetlenségi teszt hipotézisének hátterében:

  • \ (H_0 \): A populációban a két kategorikus változó független.
  • \ (H_a \): A populációban a két kategorikus változó függ.

jegyzet! Ezek a hipotézisek többféleképpen fogalmazhatók meg. A "független" és "függő" szavak helyett azt lehet mondani, hogy "nincs kapcsolat a két kategorikus változó között", szemben a két kategorikus változóval. Vagy "nincs összefüggés a két kategorikus változó között", szemben a két változóval. A fontos rész az, hogy a nullhipotézis arra utal, hogy a két kategorikus változó nem kapcsolódik egymáshoz, miközben az alternatíva megpróbálja megmutatni, hogy kapcsolatban állnak.

Miután összegyűjtöttük adatainkat, összefoglaljuk az adatokat a kétirányú vészhelyzeti táblázatban. Ez a táblázat a megfigyelt számokat ábrázolja, és ennek hívjuk Megfigyelt számlálási táblázat vagy egyszerűen a Megfigyelt táblázat. A lecke bevezető oldalán található vészhelyzeti táblázat a vizsgált személyek pártállásának és véleményének megfigyelt számát képviselte.

A kérdés így hangzik: "Hogyan nézne ki ez a táblázat, ha a két változó nem lenne összefüggésben?" Vagyis abban a nullhipotézisben, hogy a két változó független, mit várhatnánk az adatainktól?

Vegye figyelembe a következő táblázatot:

Sikertelenség összesen 1. csoport 2. csoport Teljes
A B A + B
C D C + D
A + C B + D A + B + C + D

A teljes szám \ (A + B + C + D \). Koncentráljunk egy cellára, mondjuk az 1. csoportra és a sikerre az A megfigyelt számlálással. Ha visszatérünk a valószínűség leckénkre, jelöljük az \ (G_1 \) eseményt az „1. ​​csoport”, az \ (S \) pedig a sikert. " Akkor,

Emlékezzünk vissza arra, hogy ha két esemény független, akkor metszéspontjuk az adott valószínűségük szorzata. Más szavakkal, ha \ (G_1 \) és \ (S \) függetlenek, akkor.

Ha a valószínűség helyett a számlálást vettük figyelembe, akkor a valószínűséget a teljes számmal megszorozva kapjuk meg. Más szavakkal.

Ez az a gróf, amit szeretnénk elvárják megnézni, hogy a két változó független-e (azaz feltételezve, hogy a nullhipotézis igaz).

Az egyes sejtek várható száma a nullhipotézis szerint: