TÖBB REGRESSZIÓ

(Megjegyzés: A CCA a többszörös regresszió speciális fajtája)

minél több


Az alábbiakban egy hipotetikus adatsor egyszerű, kétváltozós lineáris regresszióját mutatjuk be. A zöld keresztek a tényleges adatok, a piros négyzetek pedig a "megjósolt értékek" vagy az "y-kalapok", a regressziós egyenes becslésével. A legkisebb négyzetek regressziójában az adatpontok és a megfelelő előre jelzett értékek közötti négyzet (függőleges) távolságok összege minimálisra csökken.

Azonban gyakran érdekel minket annak tesztelése, hogy egy függő változó (y) összefügg-e több mint egy független változó (pl. x1, x2, x3 ).
Regressziókat hajthatunk végre a következő modellek alapján:
y = Я0 + Я1x1 + e
y = Я0 + Я2x2 + e
y = Я0 + Я3x3 + e
És valóban, ez általában megtörténik. Lehetséges azonban, hogy a független változók elhomályosíthatják egymás hatásait. Például egy állat tömege az életkor és az étrend függvénye lehet. Az életkor hatása felülírhatja az étrend hatását, ami a diéta visszafejlődéséhez vezethet, ami nem tűnik túl érdekesnek.

Az egyik lehetséges megoldás egy regresszió végrehajtása egy független változóval, majd annak tesztelése, hogy egy második független változó kapcsolatban áll-e a regresszióból származó maradványokkal. Folytatja egy harmadik változóval, stb. Ezzel problémát jelent, hogy néhány változót kiváltságos helyzetbe hoz .

A többszörös regresszió lehetővé teszi több független változó egyidejű tesztelését és modellezését. (Megjegyzés: a többszörös regresszió továbbra sem tekinthető "többváltozós" tesztnek, mert csak egy függő változó létezik).

A többszörös regresszió modellje a következő:
y = Я0 + Я1x1 + Я2x2 + Я3x3 + . + e

A b 's "regressziós együtthatóknak" nevezzük. Ahelyett, hogy egy sort illesztenénk az adatokhoz, most egy síkot (2 független változóhoz), egy szóközt (3 független változóhoz) stb.

A becslés továbbra is elvégezhető a lineáris legkisebb négyzetek elvei szerint.
A megoldás képletei (azaz az összes b) csúnyák. A mátrix megoldás azonban elegáns:

A modell: Y = + e
A megoldás: b = ( x"x) -1 x"Y

(Lásd például: Draper és Smith 1981)

Mint az egyszerű regresszió esetében, a y-az elfogás eltűnik, ha az összes változó szabványosított (lásd Statisztika) .


VONALKOMBINÁCIÓK

Tekintsük a modellt:
y = Я0 + Я1x1 + Я2x2 + Я3x3 + . + e
Mivel y a lineáris függvények kombinációja, a-nak nevezzük lineáris kombináció a x's. A következő modellek nem lineáris kombinációi x:
y = Я0 + Я1 /x1 + Я2x2 2 + e
y = exp (Я0 + Я1x1 + Я2x2 + Я3x3 + e)

De akkor is használhat több regressziót, ha változókat alakít át. Az első példához hozzon létre két új változót:
x1'= 1 /x1 és x2 '= x2 2

A második példához vegye mindkét oldal logaritmusát:
nehézkes) = Я0 + Я1x1+ Я2x2 + Я3x3 + e

Vannak olyan modellek, amelyek nem lehetnek "linearizálhatók", ezért a lineáris regresszió nem használható, például:
y = 0 - Я1x1)/3x2 + e

Ezeket nemlineáris regressziós technikákkal kell megoldani. Sajnos nehéz megtalálni a megoldást az ilyen nemlineáris egyenletekre, ha sok paraméter van.


Mi a helyzet a polinomokkal?

Vegye figyelembe, hogy:
y = fejsze 3 + bx 2 + cx + d + e

kifejezhető:
y = Я0 + Я1x1+ Я2x2 + Я3x3 + e

ha x1 = x 1, x2 = x 2, x3 = x 3

Tehát a polinom regresszió a lineáris regresszió speciális esete. Ez hasznos, mert még akkor is, ha a polinomok nem képviselik a igaz modell, sokféle formát öltenek, és sokféle célra elég közel lehetnek.

Ha két változója van, akkor a válaszfelülethez illeszkedő polinom és interakciós kifejezések használhatók:
y = Я0 + Я1x1+ Я2x1 2 + Я3x2 + Я4x2 2 + Я4x1x2 + e

Ez a funkció egyszerű hegygerincekre, csúcsokra, völgyekre, gödrökre, lejtőkre és nyergekre alkalmas. Hozzáadhatunk köbös vagy magasabb tagokat, ha bonyolultabb felületre akarunk illeszkedni.

Я4x1xA 2 interakciós kifejezésnek tekinthető, mivel az 1. és a 2. változó kölcsönhatásba lép egymással. Ha b4 végül jelentősen eltér a nullától, akkor elutasíthatjuk azt a nullhipotézist, miszerint nincs „interakciós hatás”.


Statisztikai következtetés
A többszörös regresszióval együtt jár egy átfogó szignifikancia-teszt és egy "többszörös" R 2 "- ami valójában a r 2 a mért igen az előrejelzettekkel szemben y's. A legtöbb csomag egy "Korrigált többszöröset" tartalmaz R 2 ", amelyet később tárgyalunk.
Minden változóhoz általában a következőket kell megadni:

  • regressziós együttható (b)
  • standardizált regressziós együttható (b ha az összes változó szabványosítva van)
  • a t érték
  • a o ahhoz kapcsolódó érték t érték.

A standardizált együttható hasznos: megegyezik a r az érdekes változó és a regresszióból származó maradványok között, ha a változót kihagynánk.

A szignifikancia tesztek feltételesek: Ez azt jelenti mivel az összes többi változó szerepel a modellben. A nullhipotézis a következő: "Ez a független változó nem magyarázza meg a y, túlmutat a többi változó által magyarázott variáción. "Ezért valószínűleg nem lesz szignifikáns egy olyan független változó, amely meglehetősen felesleges más független változókkal.

Néha egy ANOVA tábla is szerepel benne.

Az alábbiakban egy többszörös regresszió SYSTAT kimenete látható:


Egyes változók egyszerű regresszióval lehetnek szignifikánsak, de többszörös regresszióval nem. Például:

A növényfajok gazdagsága gyakran korrelál a talaj pH-jával, és gyakran erősen korrelál a talaj kalciumával. De mivel a talaj pH-ja és a kalcium szorosan összefügg egymással, egyik sem magyarázza lényegesen nagyobb eltérést, mint a másik.

Ezt hívják a multikollinearitás (bár perspektíva kérdése, hogy „probléma”-e, vagy valami új betekintést nyújt).

Az is lehetséges, hogy az egyszerű regresszióban a jelentéktelen minták jelentősvé válnak a többszörös regresszióban, pl. az életkor és az étrend hatása az állat méretére.


Többszörös regresszióval kapcsolatos problémák

Felszerelés:

Minél több változója van, annál nagyobb a variancia mértéke, amelyet meg lehet magyarázni. Még akkor is, ha minden változó nem sokat magyaráz, a nagyszámú változó hozzáadása nagyon magas értékeket eredményezhet R 2. Éppen ezért egyes csomagok a "Korrigált R 2 ", amely lehetővé teszi a regressziók összehasonlítását a változók különböző számával.
Ugyanez vonatkozik a polinom regresszióra is. Ha van N adatpontokat, akkor pontosan illesztheti a pontokat egy fok polinommal N-1.
A többszörös regresszió szabadságának foka egyenlő N-k-1, hol k a változók száma. Minél több változót ad hozzá, annál inkább rontja a modell tesztelésének képességét (pl. Statisztikai erő lemegy).

Több összehasonlítás:

Egy másik probléma a többszörös összehasonlításé. Minél több tesztet hajt végre, annál nagyobb a valószínűsége annak, hogy hamisan elutasítja a nullhipotézist.

Tegyük fel, hogy beállított egy határértéket o= 0,05. Ha H0 mindig igaz, akkor az idő 5% -át elutasítanád. De ha két független tesztje lenne, akkor hamisan elutasítana legalább egyet H0
1- (1 -05) 2 = 0,0975, vagyis az idő csaknem 10% -a.

Ha 20 független tesztje lenne, akkor hamisan elutasítana legalább egyet H0
1- (1 -05) 20 = 0,6415, vagy csaknem az idő 2/3-a.

A többszörös összehasonlítás problémájához igazodni lehet, a leghíresebb a Bonferroni teszt és a Scheffe teszt. De a Bonferroni teszt nagyon konzervatív, és a Scheffe tesztet gyakran nehéz végrehajtani.
A Bonferroni teszthez egyszerűen meg kell szorozni az egyes megfigyelteket o-érték az elvégzett tesztek számával.

Holm több összehasonlítással történő korrekciós módszere kevésbé ismert, és kevésbé konzervatív is (lásd Legendre és Legendre, 18. o.).


Részleges összefüggés
Néha van egy vagy több független változója, amelyek nem érdekelnek, de a további elemzések során számolnia kell velük. Az ilyen változókat "kovariábiliseknek" nevezzük, a hatásukat kiváltó elemzést pedig "részleges elemzésnek" nevezzük. Ilyenek például:

  • A kovariancia elemzése
  • Részleges összefüggés
  • Részleges regresszió
  • Részleges DCA
  • Részleges CCA

(A legegyszerűbb esetben a két változó, az A és a B, és egy C kovariábilis változó közötti részleges korreláció korreláció az A C és B B regressziójának maradványai között. Az egyetlen különbség abban rejlik, hogy figyelembe vesszük a szabadság fokát ).

Példák: Tegyük fel, hogy olyan kísérletet hajt végre, amelyben a ebihal különböző hőmérsékleten emelkedik, és meg szeretné vizsgálni a felnőtt béka méretét. Érdemes "kiszámítani" az ebihal tömegének hatásait.

A gerinctelen fajgazdagság példában a fajgazdagság összefügg a területtel, de ezt mindenki tudja. Ha a műtrágyázási hatások érdekelnek, indokolt lehet a tó területének hatásainak "felszámolása".


Fokozatos regresszió

Gyakran nem igazán érdekel a statisztikai következtetés, de nagyon szeretne egy regressziós modellt, amely jól illeszkedik az adatokhoz. Azonban egy olyan modell, mint:

Túl gonosz a használata! Sokkal hasznosabb lehet a független változók olyan részhalmazát választani, amely a legjobban magyarázza a függő változót.

Három alapvető megközelítés létezik:

1) Továbbítás

Először válassza ki a független változót, amely a legtöbb változást magyarázza a függő változóban.
Válasszon egy második változót, amely a legnagyobb maradék variációt magyarázza, majd számolja ki a regressziós együtthatókat.
Addig folytassa, amíg egyetlen változó sem "magyarázza" jelentősen a maradék variációt.

2) Visszafelé történő kiválasztás

Kezdje a modell összes változójával, és dobja el egyenként a legkevésbé "szignifikáns" értéket, amíg csak "szignifikáns" változók maradnak.

3) A kettő keveréke

Végezzen előre választást, de dobja el azokat a változókat, amelyek új változók bevezetése után már nem lesznek "jelentősek".

Miért "idézőjeles" a fenti összes pontban? Mivel annyi különböző összehasonlítást végez, hogy a o-az értékek veszélybe kerülnek. Valójában az eljárás minden egyes lépésében sok különböző változót hasonlít össze. De a helyzet ennél még rosszabb: egy modellt választasz a változók összes elképzelhető szekvenciája közül.

Habár a lépésenkénti módszerek képesek értelmes mintákat találni az adatokban, az is közismert, hogy hamis mintákat talál. Ha kételkedik ebben, próbáljon meg lépésenkénti eljárást futtatni, csak véletlenszerű számok felhasználásával. Ha elegendő változót tartalmaz, akkor szinte mindig 'jelentős' eredményeket talál.