A differenciálisan expresszált gének és a fenotípussal összefüggő gének modellalapú közös azonosítása

Samuel Sunghwan Cho

1 Interdiszciplináris program a bioinformatikában, Szöuli Nemzeti Egyetem, Kwan-ak St. 599, Kwan-ak Gu, Szöul, Korea

Yongkang Kim

2 Statisztikai Tanszék, Szöuli Nemzeti Egyetem, Kwan-ak St. 599, Kwan-ak Gu, Szöul, Korea

Joon Yoon

1 Interdiszciplináris program a bioinformatikában, Szöuli Nemzeti Egyetem, Kwan-ak St. 599, Kwan-ak Gu, Szöul, Korea

Minseok Seo

1 Interdiszciplináris program a bioinformatikában, Szöuli Nemzeti Egyetem, Kwan-ak St. 599, Kwan-ak Gu, Szöul, Korea

Su-kyung Shin

3 Élelmiszer- és táplálékgenomikai kutatóközpont, Élelmiszertudományi és táplálkozási tanszék, Kyungpook Nemzeti Egyetem, Daegu, Korea

Eun-Young Kwon

3 Élelmiszer- és táplálékgenomikai kutatóközpont, Élelmiszertudományi és táplálkozási tanszék, Kyungpook Nemzeti Egyetem, Daegu, Korea

Sung-Eun Kim

4 Élelmezési és táplálkozási tanszék, Sookmyung Női Egyetem, Szöul, Korea

Yun-Jung Bae

5 Élelmiszertudományi és Kulináris Művészeti Osztály, Shinhan Egyetem, Gyeonggi, Korea

Seungyeoun Lee

6 Matematikai és Statisztikai Tanszék, Sejong Egyetem, Szöul, Korea

Mi-Kyung Sung

4 Élelmezési és táplálkozási tanszék, Sookmyung Női Egyetem, Szöul, Korea

Myung-Sook Choi

3 Élelmiszer- és táplálékgenomikai kutatóközpont, Élelmiszertudományi és táplálkozási tanszék, Kyungpook Nemzeti Egyetem, Daegu, Korea

Taesung Park

1 Interdiszciplináris program a bioinformatikában, Szöuli Nemzeti Egyetem, Kwan-ak St. 599, Kwan-ak Gu, Szöul, Korea

2 Statisztikai Tanszék, Szöuli Nemzeti Egyetem, Kwan-ak St. 599, Kwan-ak Gu, Szöul, Korea

A kísérletek megtervezése és megtervezése: MC TP. Végezte a kísérleteket: SS EK YB MS. Elemezte az adatokat: SC YK JY MS SK. Hozzájáruló reagensek/anyagok/elemző eszközök: SS EK YB MS. Írtam az írást: SC YK MS JY SL TP. Értelmezte az adatokat és átdolgozta a kéziratot a fontos szellemi tartalom szempontjából: SK.

Társított adatok

Minden releváns adat megtalálható a dokumentumban és a kiegészítő információkat tartalmazó fájlokban.

Absztrakt

Háttér

Az új technológiák fejlődése nagyban befolyásolta a biológiai kutatási területet. Pontosabban, a mikroray technológia megjelenése döntő fordulópontot jelent a biológiai kutatásban [1,2,3,4]. A microarray technológiát általában alkalmazták a gének expressziós mintáinak egyidejű azonosítására a sejtekben több ezer gén esetében. Ezenkívül a mikroarray technológia érzékenysége és specifikussága tovább javul, és a mikrorayák gazdaságosabb kutatási eszközzé válnak [5]. A mikroarray technológia fontos újonnan megjelenő orvosi alkalmazása a klinikai döntések támogatása a betegség diagnosztizálásában, valamint a klinikai eredmények előrejelzése a kezelésre adott válaszként [6].

A közelmúltban a mikroarray technológia fejlesztései vezérelték a különféle platformok fejlesztését. Számos tanulmány több platformot is megpróbált integrálni; például a MicroArray Quality Control (MAQC) projekt olyan génexpressziós szinteket biztosított, amelyeket hét különböző platformról mértek. Az MAQC-tanulmány erőforrást jelentett, amely fontos első lépést jelent a mikro-sugarak klinikai és szabályozási környezetben történő felhasználásának kereteinek létrehozása felé [7]. Ezenkívül a mikrorajz technológiát sikeresen értékesítették, és ennek eredményeként jelentős mennyiségű mikrorajz adat keletkezett. Számos tanulmány végezte a mikroarray adatok integrációs elemzését. A metaanalízis hatékonyan egyesíti a különféle génexpressziós vizsgálatok eredményeit (például emlőrák [8]). A statisztikai modellek, például a varianciaanalízis, hatékonyak az integrációs elemzésben sok gén expressziós profillal rendelkező gének azonosítására sok kontrollált változó jelenlétében [9].

Általánosságban elmondható, hogy a mikroarray adatok elemzésének elsődleges célja a differenciálisan expresszált gének (DEG) azonosítása. A Microarray technológia lehetővé teszi számunkra, hogy más céloknál könnyebben nyerjünk adatokat a célgének expressziójáról. A DEG-ek minden eddiginél könnyebben észlelhetők a mikroarray technológiával. Kísérleti adatokra alkalmazva a betegségekkel kapcsolatos kauzális géneket DEG-ek felfedezésével lehet megszerezni. Az elmúlt évtizedben számos statisztikai módszert javasoltak, mint például a t-tesztek, a microarray (SAM) szignifikancia-elemzése [10], a regressziós modellezés, a vegyes modellezés [11] és a helyi összesített hiba (LPE) tesztek [12].

Ezen megközelítések közül a t-teszt a legnépszerűbb statisztikai teszt két csoport közötti átlag összehasonlításához. A t-teszt egy olyan paraméteres módszer, amely normalitásfeltevést igényel. A mikroszkóp adatok azonban ritkán elégítik ki a normális eloszlás feltételezését. Ezért a DEG kimutatásához előnyösen olyan permutációs tesztet használunk, amely nem igényel ilyen feltételezéseket [13,14]. A SAM [10] t-típusú statisztikákat használ fudge faktor segítségével a variancia stabilizálására, és ellenőrzi a hamis felfedezési arányt (FDR) [15]. A SAM szintén nem paraméteres elemzés, amely nem igényel normalitáseloszlási feltételezést.

A mikroarray technológia alkalmazása sokféle tanulmányhoz vezetett, amelyek túlmutatnak a DEG-ek azonosításán, például egy tanulmány, amely a fenotípus és az expressziós adatok kapcsolatát vizsgálja. Különböző fenotípusokat alkalmaztak a mikroarray kísérletekben; például a túlélési időt használták fenotípusként a rák kiújulásának elemzésére klinikai vizsgálatokban [16,17]. Számos, a túlélési időhöz kapcsolódó gént azonosítottak. A vastagbélrák mikroarray vizsgálatában fenotípusként mikroszatellit instabilitást (MSI) alkalmaztunk. Mivel a CpG-sziget metilátor fenotípusa (CIMP) társult az MSI és a BRAF mutációival a vastagbélrákban [18], az MSI fontos szerepet játszott a vastagbélrák-vizsgálatokban. Ezenkívül a tumor altípus is fontos fenotípus lehet. Például az ösztrogén receptor (ER), a progeszteron receptor (PR) és a HER2 együttesen határozza meg az emlőrák altípusait. Leginkább a hármas-negatív fenotípust (ER-negatív, PR-negatív és HER2-negatív) alkalmazzák [19].

A fenotípushoz kapcsolódó gének (PAG) azok a gének, amelyek egy érdekes fenotípushoz kapcsolódnak. A PAG-k regressziós elemzésekkel azonosíthatók, például lineáris regresszió-analízissel a folyamatos fenotípusok és a Cox regressziós modell a túlélési idő fenotípusai esetében [20]. Amikor a fenotípus egy bináris változó, amely két csoportot képvisel, a PAG-k azonosítása egyenértékűvé válik a DEG-ek azonosításával.

Ebben a cikkben a DEG-ek és a PAG-ok közös azonosítására koncentrálunk a mikroarray adatelemzések során. Vizsgálatunkat az motiválta, hogy elemezni kell a magas zsírtartalmú étrendből (HFD) és a normál étrendből (ND) álló mikroarray kísérletet. A mikroarray kísérlethez mindegyik csoportba tíz egeret rendeltek. Ezenkívül a vérmintákban négy fenotípust mértek, amelyek tükrözik a leptin, az adiponektin, az inzulinszerű 1-es növekedési faktor (IGF-1) és az inzulin expresszióját. A leptin egy adipocita-szekretált hormon, amelynek kulcsszerepe van az energia homeosztázisban [21]. Az IGF-1 molekuláris szerkezete hasonló az inzulinhoz, és fontos hormon a gyermekkori növekedésben. Az adiponektin szabályozza a glükózszintet, valamint a zsírsavak lebontását, és az inzulin az egyik legfontosabb hormon az emlősök anyagcsere-rendszerében. A mikroarray kísérlet az étrendi zsírkontrollhoz kapcsolódó génexpressziós változásokra és az elhízással kapcsolatos fenotípusokhoz kapcsolódó befolyásos gének meghatározására összpontosított. Ezért meg kell határoznunk a HEG és ND csoportok DEG-jeit, amelyek szintén a PAG-k a négy elhízással kapcsolatos fenotípushoz.

Bár számos megközelítést javasoltak a DEG-ek és a PAG-k külön azonosítására, a DEG-ek és a PAG-ok együttes azonosítására csak néhány megközelítés áll rendelkezésre. Az első megközelítés, amelyet a DEG és PAG együttes azonosítására használtunk, egy naiv megközelítés volt, amely külön-külön észleli a DEG-eket és a PAG-kat, majd azonosítja a metsző géneket a PAG-k és a DEG-ek listájáról. A második megközelítés egy hierarchikus megközelítés [22], amely először észleli a DEG-eket, majd a DEG-ek közül választja a PAG-okat, vagy fordítva. Mindkét megközelítés kétlépcsős elemzés, amely a DEG és a PAG külön tesztelését igényli, ami megnehezíti a hamis pozitív hibák ellenőrzését.

Új modellalapú megközelítést javasolunk a DEG-ek és a PAG-ok egyidejű azonosítására. Modellalapú megközelítésünk lineáris regressziós modellt használ. A lineáris regressziós modellt alkalmaztuk, mivel könnyen használható, rugalmas az egyes kovariánsok kezelésében, és könnyen kiterjeszthető (vagyis a permutációs teszt kiterjesztése a normalitás feltételezésének használata nélkül is elvégezhető). Módszerünk egy egylépcsős elemzés, amely kevesebb számítási időt vesz igénybe, megkönnyíti a hamis pozitív hibák ellenőrzését, és nagyobb hatalommal bír, mint a naiv vagy hierarchikus megközelítések. Egereken végzett mikroszkópos kísérletből és szimulációs vizsgálatokból származó adatok elemzésével összehasonlítjuk a modellalapú megközelítést a naiv és hierarchikus megközelítésekkel.

Módszer

Etikai nyilatkozat

Az összes állatkísérleti eljárást a Sookmyung Női Egyetem Intézményi Állattenyésztési és Felhasználási Bizottsága felülvizsgálta és jóváhagyta (SMU-IACUC-2011-0401-005).

A mikrorajz adatok HFD és ND egércsoportokból nyert adatokból álltak az elhízással összefüggő befolyásos gének meghatározására. Négy hetes hím C57BL/6J egereket vásároltunk az SLC Japan-tól (Hamamatsu, Tokió, Japán). Az egereket műanyag ketrecekben helyeztük el (ketrecenként három-négy egeret) állandó hőmérsékleten (23 ± 2 ° C) és páratartalom mellett (50 ± 10%), 12 órás fény/sötét ciklus mellett. Az állatokat a kísérlet megkezdése előtt 1 hétig hagyták akklimatizálódni a laboratóriumi környezetben. A kísérleti étrend összetétele az AIN-93G alapú volt. A normál étrend (ND, a zsírkalóriák 15% -a) és a magas zsírtartalmú étrend (HFD, a zsírkalóriák 45% -a) zsírforrásai kukoricaolajon és zsíron alapultak. Az ilyen zsírszázalék-meghatározáshoz használt referenciát a „A magas zsírtartalmú étrend károsítja a neurogenezist: a lipidperoxidáció és az agyi eredetű neurotróf faktor bevonása” című cikkben olvashatjuk [23]. Minden második alkalommal friss étrendet biztosítottak

3 napig az egerek minden kísérlet során szabadon hozzáférhettek vízhez és élelemhez. Az állatokat 8 hétig tartottuk fenn, és CO2 belégzéssel leöltük őket 13 hetes korukban. Boncoláskor vér- és szövetmintákat gyűjtöttek; a szérummintákat teljes vérminták centrifugálásával állítottuk elő 650xg-vel 20 percig, és -80 ° C-on tároltuk az elemzésig; a vastagbélszöveteket gyorsan eltávolítottuk, azonnal fagyasztottuk folyékony nitrogénben, és -80 ° C-on tároltuk a mikroarray elemzésig.

Az Illumina MouseRef-8 v1.1 Expression BeadChip-et alkalmaztuk mikroarray kísérletünkben. Megfigyeltük a gén expressziós mintázatának változását a HFD által kiváltott elhízás miatt. 10 egeret rendeltünk az egyes ND és HFD csoportokhoz. Ezután három egeret az ND csoportból és hat egeret a HFD csoportból választottunk ki QC-n keresztül a mikroarray kísérlethez, és mindegyik mintában 45281 próba volt.

Az anyagcserét szabályozó négy fenotípust extraháltunk a vérmintában lévő expressziós szintek alkalmazásával, beleértve a leptint, az adiponektint, az inzulinszerű 1-es növekedési faktort (IGF-1) és az inzulint. A szérum inzulin koncentrációt ELISA készlettel (Linco Research, St Louis, MO, USA) mértük a gyártó utasításai szerint. Az IGF-1, a leptin (R&D Minneapolis, MN, USA) és az adiponektin (Biovendor, Brno, Csehország) szérumkoncentrációit szintén ELISA készlettel mértük a gyártó utasításainak megfelelően. Az IGF-1 molekuláris szerkezete hasonló az inzulinhoz, és fontos hormon a gyermekkori növekedésben. Az adiponektin szabályozza a glükózszintet, valamint a zsírsavak lebontását, és az inzulin az egyik legfontosabb hormon az emlősök anyagcsere-rendszerében. A kifejezés értékei log-transzformáltak. A log-transzformáció után a QQ diagramok és az illesztési tesztek jósága a normális eloszláshoz nem szolgáltatott bizonyítékot arra, hogy az adatok nem követik a normális eloszlást. Az S1 fájlban az A ábrát adtuk meg, amely Shapiro Wilks tesztekkel kapott p-értékeket mutat be az egyes génexpressziókhoz, és bemutatott néhány QQ-diagramot olyan gének esetében, amelyek a modell-alapú megközelítés szempontjából jelentősek a B ábrán az S1 fájlban.

DEG detektálása

Először kétmintás t-teszt alkalmazásával detektáltuk a DEG-eket. Másodszor a mikroarray (SAM) [10] szignifikancia-elemzését használtuk a DEG-k azonosításához. A SAM a büntetési módszerek egyikeként a t-statisztikákat úgy módosítja, hogy a közös statisztikákhoz fudge factor (s0) -t adnak. Az si változó az i génből származó becsült standard hiba, és s0 az α alapján százalékos értékként kerül kiszámításra. Ezután a következő tesztstatisztikát használjuk:

Ezenkívül a SAM módszer permutációs algoritmust használ a hamis felfedezési arány (FDR) szabályozására [15]. Ezért ezzel a teszttel könnyebben vezérelhetjük az FDR-t, mint a többi tesztnél, például a t-tesztnél.

PAG-ok észlelése

A PAG meghatározása lineáris regressziós elemzéssel történik. A mikroszkóp adatainkban két kezelési csoport van: ND és HFD. A csoportinformációkat csoport jelöli. Az Expressioni jelzi az egyes gének expressziós értékét. Amint azt korábban említettük, az érdekes fenotípusok a leptinből, az adiponektinből, az IGF-1-ből és az inzulin expresszióból állnak. Minden fenotípus esetében lineáris regressziós elemzést végzünk. Két lineáris regressziós modellt alkalmaznak a gének és a fenotípusok közötti lineáris kapcsolat azonosítására.

ahol i (= 1,2,…, p) a gént jelenti. A csoportinformációkat csoport jelöli. Az Expressioni jelzi az egyes gének expressziós értékét. Az első M1 modell az expresszió fenotípusra gyakorolt hatásának azonosítását jelenti, míg a második M2 modell az M1 kiterjesztése egy további csoport kovariáttal.

A gén és a fenotípus közötti lineáris kapcsolat jelentőségét befolyásolhatja a csoporthatás, mivel egyes géneknek nem lehetnek marginális hatásai a fenotípusra, de feltételes hatásuk lehet a csoportra vonatkozó információk alapján. Az M1 a marginális hatás, míg az M2 a feltételes hatások detektálására szolgál. A PAG-k a csoport hatásától függhetnek. Például az v1rh4 gén egy nem PAG az M1 modell szerint. Az M2 modell azonban PAG-ként azonosítja (1. ábra). Az M2 modell megfelelőbb modell, mint az M1, ha csoporthatás létezik. Az M1 modell azonban olyan PAG-kat nyújt, amelyek nem függenek a csoporthatástól, ami azt sugallja, hogy mind az M1, mind az M2-et fel kell szerelni. Ezért az M1 és M2 modelleket egyidejűleg alkalmazzuk a PAG azonosítására.

A csoporthatás figyelembevétele nélküli modell nem képes szignifikáns összefüggést kimutatni a Leptin és a V1rh4 gén között. Az y tengely a Leptin szintet, az x tengely pedig a V1rh4 expressziós szintjét jelenti. A kék vonal a HFD, míg a piros az ND regressziós vonala. A fekete folytonos vonal az összes mintát használó regressziós vonal. Ha azonban figyelembe vesszük a csoportos hatást, akkor jelentős összefüggést tudunk azonosítani a fenotípus és a génexpresszió között.

Az M1 modellben a β1 expressziós hatás a legfontosabb. Az M2 modellben a β1 továbbra is a fő érdeklődés, annak ellenére, hogy a β2 csoporthatással egészítik ki az ND csoport és a HFD csoport közötti magas zsírtartalmú diétás hatást. A PAG-kat a következő hipotézisek tesztelésével lehet azonosítani: