Normalizálás (a jellemzők z-pontszáma, az eredményeknél Cohen-féle D)

Tegyük fel, hogy volt egy kísérletünk, amely az étrend súlyra gyakorolt hatását vizsgálta. Talán néhány olyan tulajdonság, amelyet felvennénk

a téma magassága (folyamatos)
nem (kategorikus)
verseny (kategorikus)
kezdeti súly (folyamatos)
étrend (kategorikus)

Célunk az lenne végsúly alanyunk, miután a diéta véget ér.

Az egyik nagyon egyszerű modell, amelyet alkalmazhatunk, egy lineáris modell, ebben az esetben a különböző diet_plan változók együtthatója érdekelne minket leginkább. Ha kiválasztjuk a legkisebb együtthatójú tervet (azaz a legtöbb negatív, vagy ha nincs negatív együttható, akkor a legkevesebb pozitív együtthatóval), akkor jelöltet kapunk a leghatékonyabb étrendre. (Mielőtt nagyon biztosak lennénk, meg kell vizsgálnunk a lineáris feltételezés és a folyamat különféle csoportokba történő kiválasztását). Egy bonyolultabb modellben előfordulhat, hogy bele kell foglalnunk a kezdeti súly és magasság, valamint a választott étrend közötti kölcsönhatásokat.

Tegyük fel, hogy a következő modellt találjuk skálázatlan jellemzőkkel:

Mennyivel fontosabb a magasság, mint a kezdeti súly ebben a modellben? Nem akarjuk azt állítani, hogy a magasság csak azért fontos, mert nagyobb az együtthatója. Valaki, aki extra lábbal magasabb, sokkal észrevehetőbb, mint a plusz egy kilogrammal nehezebb somoén. Azt állíthatnánk, hogy valaki magasságának 1 lábnyival történő növelése ugyanolyan hatást gyakorol, mint a kezdeti súly 1,23 fonttal történő növelése, hogy némi képet kapjunk a kompromisszumról, de gyakrabban \ (z \) pontszámok segítségével szabványosítjuk szolgáltatásainkat.

Funkció normalizálás \ (z \) pontszámokkal

Folyamatos jellemzők esetében az az elképzelés, hogy az értékeket az átlag körül összpontosítsuk, és standard eltérések mértékegységeiben mérjük. Ez lehetővé teszi számunkra, hogy összehasonlítsuk a \ (z \) -pontszámok eltolódásait azzal, hogy mekkora eltolódással (azaz hány szórással) haladunk a populáció tipikus értékétől. A képlet az

Például az Egyesült Államokban az átlagos magasság 5,4 láb, 0,4 láb szórással (ha nem különítjük el nemenként). Tehát a magasság 1 lábbal történő megváltoztatása megegyezik a 2,5 szórással történő változtatással (vagyis eléggé!). Az egyesült államokbeli nemek közötti átlagtömeg az Egyesült Államokban 180 font, szórása 30 font. Az 1 font növekedés csak 0,033 szórással változik.

Ha a modellünket a \ (z \) -pontszámok segítségével illesztenénk, akkor megkapnánk

Együtthatóink most megragadják a jellemzők fontosságát, amikor összehasonlítjuk az alapjellemző természetes variációs skálájával.

Hatás normalizálás

Függetlenül attól, hogy normalizáljuk-e a funkciókat, megkérdezhetjük, hogy ez mekkora hatással jár:

a diet_A nincs hatással az alapsúlyra,
a diet_B 2,3 kg veszteséget okoz.

Természetesen ez csak azt jelenti, hogy a diet_A-t választották kiindulópontnak. Az igazi mérhető dolog az, hogy az A és B étrend közötti átlagos súlykülönbség 2,3 font. Ha abszolút számok (azaz 2,3 font) érdekelnek, ez elég jó. Megkérdezhetjük azt is, hogy mekkora 2,3 font a végső súlyok szórását tekintve. Az eredmények z-pontszámának ekvivalense Cohen-D néven ismert.

Tegyük fel, hogy ebben az esetben 500 ember van az A étrendben és 400 a B étrendben. Az A diéta végtömegének szórása 25 font, míg a B étrendben a végsúly szórása 28 font volt. A két eloszlás kombinálásának összesített szórása a

vagy az összesített szórás 26,4 font a négyzetgyök felvétele után.

Cohen D-jét adja meg

Ezt úgy tudjuk értelmezni, hogy az A étrendről a B étrendre való áttérés az, hogy 0,087 szórással "mozgatjuk a tűt" (vagyis a végső súlyt).

Hatásméret

Cohen D-je standard hatásméretet ad, így összehasonlíthatjuk a különböző effektusokat egymással. Van egy "keresési" táblázat, amely megmutatja, hogy a kísérlet mekkora hatással bír a "tipikus" kísérleti eredményekhez képest. A következő mérettáblázat a wohipédia Cohen \ (D \) cikkéből származik:

Cohen D hatása

1.20	Nagyon nagy

Az étrend változásának hatásainak jelentésekor valószínűleg értelmesebb a B étrend leírása 2,3 font súlycsökkenéssel jár, \ (D = 0,087 \) helyett vagy "kis hatás" helyett. Kísérlet megtervezésekor, ha becsüljük \ (D = 0,087 \), akkor eldönthetjük, hogy mivel ez a \ (D \) kicsi tipikus értéke, jobb lehet, ha olyan étrendet keresünk, amelynek nagyobb hatása van.

Összegzés

Végső soron Cohen D-je heurisztikus az effektus nagyságáról. A nagyobb Cohen \ (D \) nagyobb hatást jelent, és ha különböző erőfeszítéseket próbál különböző fontosságú sorrendbe állítani a különböző mutatókra, akkor Cohen D-je lehet az egyik módja annak, hogy megbecsülje az adott kísérlet vagy erőfeszítés mögé helyezett "változást" és az erőforrásokat. Végül nincs igazán parancsikon a végső lényeg mérlegeléséhez: a feliratkozásokra gyakorolt "nagy" hatás kevésbé fontos lehet a vállalati mutatók szempontjából, mint a "kicsi" hatás az elhagyott pénztárak számában. Az arányok szempontjából a szorosan összefüggő Cohen-féle H az effektus méretének változásának hatását vizsgálja.

A hipotézis tesztekről és a minta nagyságáról szóló cikkben megnézzük, hogyan használhatjuk Cohen H értékét \ (p \) érték helyett a kísérlet kimenetelének könnyebb értelmezéséhez.

A főbb elvihetők:

Amikor a jellemzőket szabványosítjuk a \ (z \) -pontszámokkal, közvetlenebb módon összehasonlíthatjuk az együtthatókat, hogy lássuk a jellemzők "fontosságát".
A jellemzők \ (z \) -értékeinek megtekintésekor a magasabb \ (z \) pontszám "atipikusabb" -t jelent, mivel a jellemző átlagától való eltérést a jellemző egységekben mérjük.
A \ (z \) -pontszámok képlete \ (z = (x - \ mu)/\ sigma \), ahol \ (\ mu \) a jellemző átlaga és \ (\ sigma \) a standard eltérés.
Két kezelés összehasonlításakor normalizált módon értékelhetjük az eredménykülönbség nagyságát, ami Cohen D-je. A képlet \ (D = (\ text/\ text) \)
Cohen D-je hasznos a kísérletek összehasonlításában, de általában az emberek a természetes eredményeket akarják majd összehasonlítani "természetes egységekben" (például hány fontért felelős ez a diéta az emberek veszteségéért, hány konverziót hajtott végre ez az e-mail stb.).
Általánosságban elmondható, hogy a nagyobb (azaz magasabb \ (D \)) effektusokat könnyebb észlelni, és kevesebb mintára lesz szükség. Ebbe a hipotézis tesztekről és a minta nagyságáról szóló cikkben foglalkozunk

Hivatkozások

A Wikipedia cikke az effektusméretről
A Wikipedia cikke Cohen h
Ez a blog cikk a hipotézis tesztekről és a minta méretéről

Damien martin

Adatkutató vagyok, érdeklődésem, hogy mi vezérli a világot. A fizika, a matematika és a számítástechnika háttere. Algoritmusok, játékok, könyvek, zene és harcművészetek iránt érdeklődik. Vagyis amikor nem vagyok készen valahol fényképezni!

A Jupyter beállítása a felhőn

Ez a cikk bemutatja, hogyan futtathatja a Jupytert egy távoli kiszolgálón, hogyan csatlakozhat hozzá és hogyan használhatja.

A Jupyter környezetének (és magjainak) mentése

Egy korábbi cikk "Mentsd meg a környezetet kondákkal" bemutatta, hogyan lehet újat készíteni.