Adattudomány: személyes alkalmazás

Will Koehrsen

2018. január 8. · 15 perc olvasás

A 2017-es nagy súlyú kihívás feltérképezése

Az egyik csalódás, amelyet gyakran hallok az adattudományt tanulóktól, az, hogy nehéz átugrani a játékokban szereplő példáktól a valós problémákig. Minden tanulási folyamatnak szükségszerűen egyszerű problémákkal kell kezdődnie, de egy bizonyos ponton túl kell lépnünk a kurált példákon és a rendetlen, ember által generált adatokba. Ez a grafika elég jól összefoglalja, amit átéltem az adattudományi oktatásom során, és bár még nem vagyok túl az átkozódó hegyen, az út egy részét átmásztam számos olyan projekten keresztül (és gyakran kudarcot vallva), amelyek valós adat:

A görbe emelkedésének legjobb módja az önbizalom növelése az idő múlásával, és nincs jobb hely a kezdéshez, mint egy projekt, amely közvetlenül kapcsolódik az életéhez. Ez a bejegyzés bemutatja az adattudomány egyenes alkalmazását az egészségemre és az apám egészségére, egy személyes problémát, amely egyértelmű előnyökkel jár, ha valaha is volt ilyen!

A jó hír az, hogy ahhoz, hogy az adattudományt személyes hasznára lehessen használni, nincs szüksége egy hatalmas technológiai cég adataira vagy erőforrásaira, csupán következetes méréskészletre és ingyenes, nyílt forráskódú elemző eszközökre, például R és Python. Ha megáll keresgélni, az adatfolyamok mindenütt megtalálhatók lesznek, amelyek nyomon követésre várnak. Lehet, hogy minden reggel rálép egy mérlegre, és az eredménytől függően gratulál vagy becsmérli magát, majd másnapig megfeledkezik róla. Néhány másodperc elteltével és a napi egyszeri súly táblázatba vétele néhány hónap alatt hasznos és tiszta adatkészletet eredményezhet (és növeli annak esélyét, hogy eléri a célját). Ezek az adatok tökéletesek ahhoz, hogy valódi problémára fejlessze az adattudományi készségeit.

Alapjában véve az adattudomány alapvetően az adatok intelligenciájának levonásáról szól, és ez a bejegyzés szemlélteti, hogy az adattudomány miként nyújthat betekintést, amely javítja a valós eredményeket. Az adattudomány egy multidiszciplináris terület - amely számítástechnikából, statisztikákból és mérnöki tudományokból áll -, de a leglényegesebb szempont is a leginkább figyelmen kívül marad: a kommunikáció. Elemzése nagyszerű lehet, de a nap végén a vezetők, professzorok és az általános közvélemény jobban törődik a végeredménnyel, mint a pontos módszerekkel. Az adattudományi kérdésre adott válasz és az elemzés korlátainak egyértelmű közlése értékes eszköz bármely adattudományi eszköztárban.

Ebben a bejegyzésben kihagytam az összes kódot (amelyet R-ben készítettem), amelyet a grafikonok létrehozásához használtunk, annak érdekében, hogy összpontosítsak az eredményekre és arra, hogy mit tanulhatunk belőlük, de az összes kód elérhető a projekt GitHub oldalán mindenki számára, aki látni akarja, hogyan történik a varázslat. Hasonlóképpen, az adatok a GitHubon és a Google Drive-on csv fájlként vannak azok számára, akik követni szeretnék. Megpróbáltam forrásokat biztosítani meghatározott témákban azok számára, akik többet szeretnének megtudni. Itt az ideje elmerülni a 2017-es Great Weight Challenge adattudományában!

Jogi nyilatkozat: Először is, a projektben bemutatott összes adat valós! Apámmal mindketten hiszünk a nyílt adatokban (egy pontig), és határozottan nem törődünk azzal, hogy sikeresebbnek tűnjünk, mint mi vagyunk. Másodszor, nem próbálok fogyókúrás termékeket eladni neked (bár fontolóra vettem, hogy ezt a bejegyzést „Hogyan lehet fogyni az adattudomány segítségével”).

Miután éveken át jóindulatúan ugrattuk egymást a saját küzdelmeinkről - az enyémekről, hogy hízhassak, és övékről -, hogy apámmal úgy döntöttünk, hogy a legjobb megoldás a súlycsökkentő verseny. Apám teljesítményét a leadott kilókkal mérnék, az enyémet pedig a felszedett kilókkal. Az egyetlen szabály a következő volt: naponta egyszer kellett lemérnünk, a verseny augusztus 18-án kezdődött és 2018. január 1-jén ért véget, a vesztesnek pedig a győztesnek fontban fizetett súlyának kétszeresét kellett fizetnie. Mivel ez valós helyzetben van a tényleges emberekkel, sem az első, sem a második szabályt nem tartották be teljesen! Mindazonáltal a verseny folyamán (amely január 6-án ért véget) egyenként több mint 100 adatpontot gyűjtöttünk össze, ami több mint elég ahhoz, hogy sok érdekes következtetést vonhassunk le.

Versenyzők

Én (Will): főiskolás korú férfi, 5'11 ", kezdősúly 125,6 font, diák, alkalmi ultramaraton futó
Apa (Craig): főkorú férfi (hagyom kitalálni, hogy ez milyen korú), 5'11 ', kezdő súly 235,2 font, irodai dolgozó, volt versenyző súlyemelő

Mindketten úgy döntöttünk, hogy a lehető legnagyobb mértékben nyitottak vagyunk a kihívásra, és elmondtuk a családnak és a barátoknak a versenyt, hogy arra kényszerítsenek minket, hogy kövessük végig. Miután rengeteg jól megtervezett tanácsot kaptunk, kidolgoztuk a megfelelő stratégiákat. Úgy döntöttem, hogy elkezdek ebédelni, mivel egészségtelen szokásom volt, hogy kihagytam a napi étkezést, hogy a NASA gyakornokom munkájára összpontosítsak. Apám pontosan ugyanazt a diétát akarta enni, de csökkentette az adagokat. Ez bölcs döntésnek tűnt, mert ez azt jelentette, hogy nem kellett a fogyókúrára gondolnia, hanem ugyanazokat az ételeket készítette és kisebb tányérokon tálalta. Azt is elhatározta, hogy a testmozgás oldalán dolgozik hosszú séták útján, hangsúlyozva, hogy nem rövid távú fogyókúrára van szükség, hanem egészségesebb általános életmódra.

Kezdhetjük a teljes eredménydiagrammal is.

Szóval így van? Az egész verseny egy képen összegződött. Nos, nem teljesen. Ez egy jó kezdet, de rengeteg betekintést lehet levonni abból, ha utat törünk az adatokba. Az adatokon keresztül meghúzott vonalak a „lösz” regressziós módszerrel készült modellek, míg a pontok a tényleges mérések. Rögtön láthatjuk, hogy mindketten jó irányba mentünk! Ez a grafikon azonban sok információt elhomályosít. Nem is tudjuk megítélni, hogy ki nyert! Ehhez rátérhetünk egy olyan diagramra, amely minden egyes súlyváltozásunkat fontban mutatja meg a kiindulási súlytól kezdve.

Itt abszolút értékeket használunk, így jobb egy nagyobb szám. Jól láthatjuk, hogy bár a verseny kezdetben szoros volt, apám (Craig) a végén elhúzódott, és jelentős különbséggel nyert. Gratulálok apa! További elvitel, hogy a súlymérés meglehetősen zajos. Igyekeztünk minden nap ugyanabban az időben, reggel először, azonos skálán venni adatokat, de annyi tényező befolyásolja a súlyt napról napra, hogy egyetlen pontot nézni értelmetlen. Csak egy adatpont-sorozat vizsgálatával derül ki trend. Ezenkívül úgy tűnik, hogy minden súlyváltozásunk négyzetgyök kapcsolatra vagy logaritmusra hasonlít. Vagyis van egy kezdeti gyors nyereség (vagy veszteség), amely aztán az idő múlásával kiegyenlítődik. Erre azért számítottak, mert kezdetben nagyon könnyű előrelépni, ha motivált vagy, de nehéz lehet tartani a lendületet. Végül mindketten súlypontokba telepedtünk, a legvégső mérések a javulás enyhe jeleit mutatták, amelyek tendenciák lehetnek vagy nem.

Ennek az eredménynek egy apró kérdése, hogy nem veszi figyelembe a testsúlyt. Ha apám 10 kg-ot veszít, az kisebb a testtömegéhez képest, mint ha 10 kg-ot gyarapítanék. A következő grafikon is mutatja a változásokat, de ezúttal a testtömeg százalékában kifejezve.

Nos, ha nekem szurkoltál, a dolgok sokkal jobban néznek ki ebben a grafikonban. Százalékos változásom a verseny nagy részében nagyobb volt, és addig voltam az utolsó napig, amikor apám csak szegélyezett engem százalékban. Érdekes, hogy mindkettőnk a testtömeg 6% -ához közeli teljes változáshoz igazodott. Ez azt sugallhatja, hogy testünk könnyen ingadozhat a + - 6% -os tartományon belül, de ezen túl a további változás nehezebb.

Az alábbiakban bemutatjuk a végső számszerű eredményeket.

Craig: Végsúly = 219,8 font, abszolút változás = 15,4 font, százalékos változás = 6,55%
Akarat: Végsúly = 134 font, abszolút változás = 7,4 font, százalékos változás = 5,85%

A grafikonok sok információt és minőségi tendenciákat mutatnak nekünk gyorsan, de nem válaszolnak kérdésekre kvantitatív eredménnyel. Például mennyit hízott vagy fogyott átlagosan naponta? Mennyi az előrejelzett súlyunk egy év múlva az összes adat felhasználásával? Ezek olyan kérdések, amelyek megválaszolásához a modellezéshez kell fordulnunk.

Egyszerű lineáris modellezés

A legjobb hely minden olyan modellezéshez, ahol folyamatos változóval, például súlygal rendelkezünk, egy egyszerű lineáris regressziós megközelítés. Létrehozunk egy lineáris modellt egy válasz (y) változóval és egy magyarázó (x) változóval. Érdekel a súly és a verseny kezdete óta eltelt napok kapcsolata, ezért a válasz súly, a magyarázó változó pedig napok. A grafikonok alapján láthattuk, hogy ez nem az adatok legjobb ábrázolása, de ez egy jó hely a kezdéshez, és lehetővé teszi számunkra a megfelelő súlyváltozásokat.

Craig modelljének eredményeit az alábbiakban mutatjuk be. Nagyon sok információ van itt, de végigmegyek rajta, és rámutatok a fontosra.

A vizsgálandó fő részek a modellt meghatározó paraméterek, számok. Egyszerű lineáris modell esetében ezek a metszéspontok és a meredekségek, amint azt az egyenlet egyenesre mutatja: y = mx + b. A súlykihívás szempontjából ez a modell a következõvé válik: súly = (napi súlyváltozás) * nap + súly nulla napon. A fenti összegzés nulla napon mért súlya a becslés oszlop alatti (elfogó) sorban található, értéke 227,78 font. A napi súlyváltozás a becsült oszlop alatti napok sorában van -0,024 font/nap értékkel. Ez azt jelenti, hogy lineáris modell szerint apám átlagosan napi 0,024 fontot fogyott.

A fent bemutatott többi statisztika valamivel részletesebb, de informatív is. Az R négyzet az y változó (tömeg) variációjának a töredékét jelenti, amely az x változó (napok) változásával magyarázható. A magasabb R-négyzet azt jelenti, hogy a modell jobban reprezentálja az adatokat, és láthatjuk, hogy modellünk csak a súlyváltozás 11,96% -át teszi ki. Ezenkívül megnézhetjük a p-értéket, hogy kiderüljön, van-e valódi trend a modellünkben, vagy ha adataink egyszerűen zajok. A p-érték egy általános statisztika, amely a megfigyelt adatok véletlenszerű előfordulásának esélyét jelöli a modell szerint. Craig modellje esetében a p-érték 0,0002642, amely jóval az általánosan elfogadott 0,05-ös szignifikancia küszöb alá esik (az alacsonyabb egy p-értéknél jobb, mert ez azt jelenti, hogy az adatokat kevésbé valószínű, hogy véletlenül generálták). Ezért annak az esélye, hogy apám fogyása egyszerűen véletlenszerű zaj, kevesebb, mint 3 10000-ból. Ebből a modellből arra következtethetünk, hogy apám fogyása a verseny folyamán valós tendencia!

Most hasonló elemzéshez fordulhatunk egyszerű lineáris regressziós modellemhez.

A modellösszefoglaló 131,9 font, a napi súlyváltozás 0,0095 font, az R-négyzet 0,04502 és a p-értéke 0,01847. Következtetéseink a következők:

A verseny folyamán napi 0,0095 fontot híztam
A modell a súlyváltozásnak csak a 4,5% -át tudja megmagyarázni
A megfigyelt eredmények a tiszta véletlen miatt 1,85% -os eséllyel fordulnak elő

A modellem p-értéke valamivel magasabb, mint az apámé, de még mindig a szignifikancia küszöb alá esik, és a modell valós trendet mutat.

Képessé tehetjük, hogy a lineáris modellek mennyire illeszkednek az adatokhoz, ha a teljes eredménykódot kissé megváltoztatjuk, és a modell trendvonalát „löszről” lineárisra változtatjuk.

A lineáris modellezés elvétele az, hogy apám és én egyaránt jelentős előrelépést mutattunk a súlycsökkentési céljaink felé a kihívás során.

Általánosított adalékmodell (GAM)

Az általánosított additív modell túllép egy egyszerű lineáris modell lineáris kapcsolatfeltevésén, és egy idősort (ebben az esetben súlyt) képvisel az általános trend, valamint napi, heti vagy éves minták kombinációjaként (összeadásaként). Ez a megközelítés nagyon jól működik a valós adatok esetében, amelyek gyakran meghatározott mintákat mutatnak be. Adatainkat naponta egyszer gyűjtöttük körülbelül 4 hónapig, ezért csak heti minták vannak és egy általános tendencia (a napi minták napi több megfigyelést igényelnek). Ennek ellenére még mindig képesek vagyunk hasznos következtetéseket levonni egy additív modellből.

Először ábrázolhatjuk az általános tendenciát. Ez hasonló a sima vonalhoz, amelyet a teljes eredménydiagramon láttunk, és megmutatja a súlyváltozás teljes pályáját.

A következő grafikon a heti trendeket mutatja a fogyás vagy a hét minden napján elért súly tekintetében. Ez a cselekmény hasznosítható információkkal rendelkezik, mert megmutatja, mely napok jelentenek problémát a súlyváltozással kapcsolatos céljaink szempontjából.

Bár apámmal próbáltunk ellentétes irányba haladni, nagyon hasonló heti mintázataink voltak. Mindketten lefogytunk a munkahét első két napjában, a munkaidő hátralévő részében híztunk és a hétvégén lefelé haladtunk. Lehetséges, hogy túl sokat olvasok ebből a cselekményből, de az én értelmezésem szerint a hétvégén sokkal több testmozgást szoktam végezni (általában egy pár többórás futást), ami csökkentené a súlyomat a munkahét felé. Ezután visszakapnám a súlyomat, amikor elfoglaltam az órákat, mielőtt a hétvégén újra elveszítettem volna a lendületemet. Apám hétvégi jobb teljesítménye valószínűleg annak is köszönhető, hogy nőtt a testmozgás, amikor nem volt munkában. Ezek az eredmények azt mondják, hogy hétvégén több étel fogyasztásán kell dolgoznom, apámnak pedig azon kell dolgoznia, hogy csökkentse a fogyasztását a hét folyamán. Egy általánosított additív modell összetettnek tűnhet, de az eredményeket felhasználhatjuk az egészségünk javítását szolgáló egyszerű cselekvések meghatározására!

A modellezés további előnye, hogy az eredményeket jóslatok készítésére használhatjuk fel. Előrejelzéseket tehetünk akár a lineáris modellel, akár az általánosított additív modellel, de mivel az additív modell jobban reprezentálja az adatokat, csak ezzel jósolunk. Két becslés érdekli elsődlegesen:

2018. január 1-jei jóslatok az első két hónap méréseink alapján (2017. október végéig)
Az előrejelzések 2019. január 1-jére készültek minden méréssel

Az első jóslat lehetővé teszi számunkra, hogy összehasonlítsuk a verseny második felében elért teljesítményünket az első félévi adatok alapján előre jelzettekkel. A második jóslat képet ad arról, hogy hol tartunk egy év múlva.

A jóslatok lényeges szempontja, amelyet gyakran figyelmen kívül hagynak, a bizonytalansági határok. A menedzserek általában csak egy számot akarnak egy előrejelzéshez, de ez egy bizonytalan világban lehetetlenség. Még a legpontosabb modell sem képes megragadni az adatokban rejlő véletlenszerűségeket vagy a nem pontos mérőeszközöket. Ezért annak érdekében, hogy felelős tudósok legyünk, egy előrejelzési szám mellett egy sor bizonytalanságot is megadunk.

Jóslatok 2018. január 1-jére a két hónap adataiból

Az alábbi grafikonok Craig és én előrejelzését mutatják be a verseny tervezett végére vonatkozóan, adatok alapján, 2017. november 1-ig.