Az adatbányászati ​​megközelítés azonosította a nyál biomarkereit, amelyek különbséget tesznek két elhízási intézkedés között

1 Alkalmazott Szájtan Tanszék, Forsyth Intézet, Cambridge, MA 02142, USA

nyál

Absztrakt

1. Bemutatkozás

A kuvaiti gyermekvizsgálat egy nagyszabású tanulmány, amelynek célja az elhízás etiológiájának és a metabolikus szindróma kialakulásának értékelésére több mint 8000 Kuvait gyermeknél [1, 2]. Hatalmas adatgyűjtéssel rendelkezik, beleértve az antropometriai és klinikai jellemzőket, az étrendi felmérést és a nyálfehérje biomarkerek, metabolitok, valamint mikrobák molekuláris profilozását. Mint a komplex, több száz változóval rendelkező gyűjtemény, több száz változóval a nagyszabású kohortos vizsgálatokban, kihívássá válik a társulások és a fenotípusok közötti összefüggések megtalálása [3]. Az előre megfogalmazott hipotézisen alapuló paraméteres modellezési megközelítés korlátozó, mivel nem képes egyszerre kezelni nagyszámú kovariátust és hatékonyan keresni a nem várt asszociációkat.

A hagyományos hipotézisvezérelt elemzés alternatív megközelítése az adatbányászat, amely egy adatközpontú folyamat nagy mennyiségű adat újszerű összefüggéseinek feltárása nélkül. eleve hipotézis [4]. Az adatbányászati ​​algoritmusok nem paraméteresek, így alkalmazhatóságukat különféle típusú adatokra teszik lehetővé, amelyek különböző jellemzőire különböző algoritmusok hangolhatók. Képesek nagyszámú változóval foglalkozni, és néha nemcsak az erős főhatású kovariánsokat észlelik, hanem azokat is, amelyek jelentős interakciós hatásokkal, de minimális főhatásokkal rendelkeznek, ami egy hagyományos modellben nem biztos, hogy lehetséges. Általában bonyolult kapcsolatokat tudnak kezelni a kovariánsok és az eredmény között, különféle módon számolva a nemlineáris asszociációval. Ezenkívül az ilyen típusú megközelítés egyik kiemelkedő jellemzője a keresztellenőrzési eljárás, amely a modellek minták közötti általánosításának kérdésével foglalkozik, és elkerüli a túlillesztést, amely a paraméteres modellezésben gyakori probléma.

Jelen tanulmány a nyálfehérje biomarker adathalmazra összpontosított, amely egy véletlenszerűen kiválasztott kohorsz volt a teljes adathalmazból [1]. Az elhízás kialakulása gyermekeknél növeli a későbbi életben a szív- és érrendszeri betegségek (CVD), a 2-es típusú cukorbetegség és más krónikus betegségek kialakulásának kockázatát, amelyeket nagymértékben a zsírszövetből felszabaduló adipokinek és citokinek közvetítenek [5, 6]. Ezért a biomarker vizsgálatok lehetővé teszik, hogy betekintést nyerjünk az elhízással kapcsolatos betegségek etiológiájába, különös tekintettel a különféle patológiákhoz vezető utakra. Néhány korábbi tanulmány megvizsgálta e tényezők és az elhízással kapcsolatos állapotok közötti kapcsolatot serdülőknél, elsősorban hipotéziseken alapuló modellezéssel társított vizsgálatokkal, előre meghatározott változók felhasználásával [7]. Vizsgálatunk adatközpontú megközelítést alkalmazott az elhízáshoz kapcsolódó kulcsfontosságú nyál biomarkerek azonosítására. Négy algoritmust alkalmaztunk adatkészletünkre: logisztikus regresszió lasso rendszeresítéssel (Lasso) [8], többváltozós adaptív regressziós spline (MARS) [9], véletlenszerű erdők (RF) [10] és osztályozási fák fellendítése (BT) [11].

2. Anyagok és módszerek

2.1. Adatforrás

Az adatkészlet a teljes populációból kiválasztott 744 alany véletlenszerű kohorsza volt (n = 8137) Kuvait gyermeki tanulmányában, amelynek minden antropometriai és klinikai intézkedését, valamint nyálmintáit 2011. október 2. és 2012. május 15. között gyűjtötték [1, 2]. A biomarker vizsgálatokat a véletlenszerű kohorszból származó nyálmintákon végeztük multiplex gyöngyplatform (Luminex® 200, Austin, TX) alkalmazásával. A mért nyál biomarkerek közé tartoztak az inzulin, a C-reaktív fehérje (CRP), az adiponektin, a leptin, az IL-1.β, IL-4, IL-6, IL-8, IL-10, IL-12P70, IL-13, IL-17A, rezisztin, MMP_9, MPO, MCP-1, TNF-α, VEGF-A, IFN-γ, és ghrelin, amelyek közül IL-17A, IFN-γ, és a ghrelin nem szerepelt az elemzésben a hiányzó értékek jelentős része miatt. Ezenkívül 18, a mérések során szélsőséges értékeket tartalmazó mintát kizártunk a későbbi elemzésből, mivel indokolatlan befolyásuk volt egy kezdeti regressziós modellben. A biomarkerek értékeit az elemzés előtt standardizáltuk. A fitneszet pulzusszám-emelkedéssel mértük egy szokásos gyakorlat után [1], majd az eredeti teljes vizsgálati populáció mediánértékének felhasználásával binarizáltuk.

Az elhízás mindkét kimenetelét bináris mértékekké alakították át. Az elhízás meghatározása szerint BMI (OBWHO) vagy derék kerülete (OBW) volt a 95. percentilisben vagy annál magasabb az életkor és a nem csoportjában [12].

2.2. Adatbányászati ​​algoritmusok a változó kiválasztásához
2.3. Változó ranglista összesítése

E négy algoritmus konszenzusának elérése érdekében az összesített rangsorolást az egyes változók egyéni rangsorolásának súlyozott átlagával hozták létre, súlyozási tényezőként a rangsorát létrehozó modell osztályozási teljesítményét. Így változóra j, összesített rangja

-ként fejezik ki

, hol én jelöli a modellt, ω a modell súlya én az AUC meghatározása szerint, és a modellben elfoglalt rangja én. Eközben, ha egy változót legalább három algoritmus választott ki, akkor azt tekintették a többségi szavazás nyertesének.

2.4. Osztályozási teljesítmény értékelése és klaszterelemzés

A legfelsőbb rangú változók részhalmazainak osztályozási teljesítményének értékeléséhez az összesített rangsorolásban ROC elemzést végeztünk a MetaboAnalyst online átfogó eszközkészlet biomarker elemzési funkciójával [14]. 95% -os konfidencia intervallumot kaptunk a ROC görbe számára a bootstrap percentilis újramintavételével [15].

A klaszteranalízist a véletlenszerű erdőben végzett belső távolságmérések alapján végeztük el, amely a Salford Predictive Modeler v7.0 változatából származik [13]. A közelségnek ez a mértéke a rendelkezésre álló fák töredéke, amelyekben egy alany ugyanazon a terminális csomóponton landolt, a fák teljes számából. A teljes közelségi mátrix többdimenziós skálázás (MDS) feldolgozása az összes adatpont közötti távolság MDS-megjelenítését eredményezte, amely bizonyítékot szolgáltatott a klaszterezésre.

3. Eredmények

3.1. Az elhízással járó tényezők azonosítása a derékkörfogat vagy a BMI alapján

A 0,20-os határértéket használtuk a fontos tényezők kiválasztásához a változó fontossági listából. Az OBW esetében 5 faktort azonosítottak lasszóval (inzulin, CRP, fitnesz, adiponektin és leptin), 6-ot MARS-szal (CRP, inzulin, adiponektin, fitnesz, VEGF és leptin), 3-at RF-vel (CRP, inzulin és leptin). ) és 5 BT-vel (CRP, inzulin, adiponektin, leptin és fitnesz), amelyek közül az inzulint, a CRP-t és a leptint mind a négy algoritmus, míg az adiponektint és a fittséget három algoritmus választotta ki (1. táblázat). Ami az OBWHO-t illeti, 4 tényezőt azonosítottak a lasszóval (inzulin, CRP, adiponektin és fitnesz), 6-ot a MARS-szal (CRP, inzulin, adiponektin, nem, VEGF és fitnesz), 3-at RF-vel (CRP, inzulin és adiponektin) és 3 BT-vel (CRP, inzulin és adiponektin), amelyek közül CRP-t, inzulint és adiponektint választottak mindenki algoritmusokhoz (1. táblázat). Nevezetesen, a leptint, az OBW valamennyi módszerével azonosított markert, egyetlen módszerrel sem választották ki az OBWHO számára. Az egyedi változó rangsorot generáló modellek osztályozási teljesítményét tekintve a MARS (AUC = 0,837, illetve 0,853) volt a legjobban teljesítő, míg a lasso a legkevésbé robusztus (AUC = 0,787, illetve 0,816).

Relatív fontossági pontszámú ≥ 20% -os változók.

Az 1. ábra szemlélteti az összes változó összesített rangsorának megoszlását, amelyet úgy számítottunk ki, hogy átlagoltuk a rangsorrendet az összes ranglistáról, súlyozva azoknak a modelleknek az osztályozási teljesítményével, amelyekből az egyedi változó rangsorolás származott. Mint látható, az OBW legfelsõbb tényezõi a CRP, az inzulin, az adiponektin, majd a leptin és a fitnesz voltak, ezeket az algoritmusok többségével választottuk ki, piros színnel jelezve. Az OBWHO esetében viszont a legfontosabbak az összes algoritmus által kiválasztott CRP, inzulin és adiponektin voltak. A Leptin, az OBW egyik legfőbb jellemzője, a 10. helyet szerezte meg az OBWHO-ban.

3.2. A legjobb besorolású változók részhalmaza az osztályozási teljesítmény alapján értékelve

Az összesített ranglistából a többségi szavazatot elért (azaz legalább három algoritmus által azonosított) legfelsõbb változók részhalmazát használták osztályozási teljesítményük értékeléséhez, osztályozóként támogató vektorgépet (SVM) [8], ROC analízisből származó AUC-t használva vizsgálati mérőszámként. Az OBW esetében az első 5 többségi szavazattal rendelkező tényezőt (CRP, inzulin, adiponektin, leptin és fitnesz) tesztelték, 0,808 AUC értéket elérve (95% CI: 0,751–0,856) (2. ábra a)). Az OBWHO esetében a legtöbb 3 többségi szavazattal rendelkező tényezőt (CRP, inzulin és adiponektin) tesztelték, 0,82 AUC értéket elérve (95% CI: 0,782–0,862) (2. ábra b).


3.3. Elhízott alanyok csoportosítása a nyál biomarkerei és a klinikai intézkedések alapján

A fa alapú közelségi mérések alapján létrehozott, biomarkereken és más kovariánsokon alapuló MDS diagram az elhízott alanyok csoportosulását mutatta az OBW, valamint az OBWHO esetében (3. ábra). A 3. ábra a) pontjában a derék kerülete (kék pontok) által definiált elhízott alanyok többnyire a jobb felső sarokban csoportosultak, míg a nem elhízott alanyok többnyire mindenütt szétszóródtak, kivéve a bal oldali kis csoportosulást. Az OBWHO esetében azonban a minta egészen más volt (3. ábra (b)). Az elhízottak jobbra csíkszerű régióba csoportosultak, míg a nem elhízottak balra hasonló mintázattal, a kettő egyes részei középen átfedésben voltak.

4. Megbeszélés

Négy adatbányászati ​​módszer, logisztikai regresszió lasso-szabályozással (Lasso), többváltozós adaptív regressziós spline (MARS), véletlenszerű erdő (RF) és fokozó osztályozási fák (BT), különféle nyáljelzőket és más, az elhízáshoz kapcsolódó jellemzőket azonosított a kiválasztott változók rangsorának generálása relatív fontosságuk szerint. Az együttes ötletet a jellemzők kiválasztásához használtuk [16, 17], hogy összeállítsunk egy összesített rangsort, amelynek célja a robusztusabb részhalmaz megszerzése, az egyes algoritmusokból származó rangsor átlagolásával, súlyozva a rangsort előállító megfelelő modellek osztályozási teljesítményével. Ennek eredményeként a CRP, az inzulin, az adiponektin, a leptin és a fitnesz jelentek meg az OBW legalább három algoritmusával azonosított legfelsőbb tényezőként, míg a CRP, az inzulin és az adiponectin az OBWHO-val. Végül a fenti változók részhalmazát a fenotípusokon végzett osztályozási teljesítményük alapján értékeltük.

A változó kiválasztása a legjobb tulajdonságok részhalmazát kereső folyamat. A releváns jellemzők megőrzéséhez használt stratégiáktól függően a különböző tanulási algoritmusok olyan tulajdonság-részhalmazokhoz juthatnak, amelyek a teljes keresési terület különböző helyi optimái. Így több módszer részhalmazainak kombinálásával kibővíthetjük a keresési teret, és robusztusabb jellemzőkből álló részhalmazt nyerhetünk a jobb általánosíthatóság elérése érdekében [16]. Ezt az együttes ötletet a jellemzők kiválasztására fogadtuk el, létrehozva egy kombinált rangsorolást lineáris összesítéssel, amelyben az egyedi rangsort generáló modellek teljesítménye befolyásolhatta a végső rangsort. A közelmúltban kifejlesztettek egy másik, az együttes ötlete által ihletett funkcióválasztó eszközt, amely nyolc funkcióválasztási módszert integrált [18]. Megjegyzendő, hogy ez a megközelítés három egyváltozós és öt többváltozós módszert foglal magában, amelyek közül négy a véletlen erdei algoritmus két különböző megvalósításának variációja. Úgy gondoljuk, hogy bizonyos előnyökre lehet szert tenni, ha az együttes megközelítés megkülönböztetően eltérő többváltozós módszereket tartalmaz, ahogyan azt a tanulmányunkban alkalmaztuk.