A génexpresszió szövet-specifitása lassan változik az ortológusok között, és gyorsan a paralogok között

Társulás Ökológia és Evolúció Tanszék, Lausanne-i Egyetem, Lausanne, Svájc, Svájci Bioinformatikai Intézet, Lausanne, Svájc

génexpresszió

Társulás Ökológia és Evolúció Tanszék, Lausanne-i Egyetem, Lausanne, Svájc, Svájci Bioinformatikai Intézet, Lausanne, Svájc

  • Nadezda Kryuchkova-Mostacci,
  • Marc Robinson-Rechavi
  • Megjelent: 2016. december 28
  • https://doi.org/10.1371/journal.pcbi.1005274
  • >> Lásd az előnyomást

Ábrák

Absztrakt

Szerző összefoglalása

Konkrét példák alapján összehasonlító biológusok azt feltételezték, hogy ugyanaz a gén a különböző fajokban ugyanazzal a funkcióval rendelkezik, míg egy génnek egy fajon belüli duplikációja több másolat létrehozásához lehetővé teszi számukra a különböző funkciók megszerzését. Ezt a modellt a közelmúltig még kevéssé tesztelték, majd a vártnál nehezebb megerősíteni. Az egyik probléma a "funkció" meghatározása könnyen tanulmányozható módon. Bemutatjuk a funkció mérlegelésének új módját: mennyire specifikus egy gén aktivitása ("expressziója")? Az egyes szövetekre jellemző gének funkciói ezekhez a szövetekhez kapcsolódnak, míg azok a gének, amelyek széles körben aktívak sok vagy minden szövetben, általánosabb funkciókkal rendelkeznek a szervezet számára. Megállapítottuk, hogy ez a "szövet-specifitás" duplikáció hiányában nagyon lassan fejlődik, míg közvetlenül a duplikáció után az új génmásolat eltér. Ez azt mutatja, hogy a duplikáció valóban az új funkciók fejlődésének erőteljes növekedéséhez vezet.

Idézet: Kryuchkova-Mostacci N, Robinson-Rechavi M (2016) A génexpresszió szövet-specifitása lassan tér el az ortológusok között, és gyorsan a paralogok között. PLoS Comput Biol 12 (12): e1005274. https://doi.org/10.1371/journal.pcbi.1005274

Szerkesztő: Christos A. Ouzounis, Kutatási és Technológiai Központ-Hellas, GÖRÖGORSZÁG

Fogadott: 2016. augusztus 5 .; Elfogadott: 2016. november 26 .; Közzétett: 2016. december 28

Adatok elérhetősége: Az adatok a Figshare-től érhetők el a DOI-nál: 10.6084/m9.fshshare.3493010.v2.

Finanszírozás: Ezt a munkát a Svájci Nemzeti Tudományos Alapítvány (SNF 31003A_153341) és az Etat de Vaud finanszírozta. A finanszírozóknak nem volt szerepük a tanulmányok tervezésében, adatgyűjtésben és elemzésben, a közzétételre vonatkozó döntésben vagy a kézirat elkészítésében.

Versenyző érdeklődési körök: A szerzők kijelentették, hogy nincsenek versengő érdekek.

Bevezetés

Az ortológus sejtést széles körben használják a annotáció átvitelére a gének között, például újonnan szekvenált genomokban. De nehéz volt megállapítani, hogy az ortológusok hasonló funkciókat töltenek-e be és mennyit, mint a paralógok [1,2]. A legszélesebb körben elfogadott modell az, hogy az ortológusok lassabban térnek el egymástól, és hogy a párhuzamosan történő párhuzamos generáció erőteljes divergenciához, sőt funkcióváltozáshoz vezet. Az is várható, hogy általában a homológok funkcionálisan eltérnek az időtől. Ezeknek a hipotéziseknek a tesztje alapvető kérdéseket vet fel a molekuláris evolúcióval kapcsolatban, a funkcionális evolúció sebességével és a duplikációk szerepével kapcsolatban, és elengedhetetlen a homológok felhasználásához a genom annotációiban.

Meglepő módon számos olyan tanulmány létezik, amelyek nem számoltak be különbségről az ortológusok és a paralógok között, vagy éppen ellenkezőleg, hogy a paralógok funkcionálisan hasonlóbbak lennének, mint az ortológusok. Az ortológus sejtés szekvencia evolúciójával végzett tesztjei nem találtak különbséget a pozitív szelekcióban végzett speciáció vagy duplikáció után [3], sem az aminosav eltolódásokban [4]. A vitát Nehrt et al. [5] aki egy nagyszabású tanulmányban számolt be az expressziós szintek hasonlóságán és az emberi és egér gén-ontológiai (GO) elemzésen alapulva, hogy a paralógok jobban megjósolják a funkciót, mint az ortológusok. Megjegyzendő, hogy a tanulmány GO elemzésének módszertani vonatkozásait számos más szerző kritizálta [6,7]. Nagyon hasonló GO-analízissel, de korrigálva az adatok torzítását 13 baktérium- és eukarióta fajból, Altenhoff et al. [8] nagyobb funkcionális hasonlóságot talált az ortológusok között, mint a paralógok között a GO annotációs elemzése alapján, de a különbségek nagyon csekélyek voltak.

Az ortológusok expressziós profiljának korai összehasonlítása emberben és egérben arról számolt be, hogy ezek nagyon különbözőek, közel állnak a paralógokhoz és még a véletlenszerű párokhoz is [9]. További tanulmányok, Nehrt és munkatársai nyomán. [5], kevés vagy egyáltalán nem talált bizonyítékot az expressziós adatok ortológus sejtésére. Rogozin és mtsai. [10] arról számoltak be, hogy az ortológusok hasonlóbbak, mint a faji paralógok között, de kevésbé hasonlóak, mint a fajon belüli paralógok, az emberi és egér RNS-seq expressziós profiljai közötti összefüggések alapján. Wu és mtsai. [11] csak kis különbséget talált az ortológusok és a paralógok között. A paralogok funkcionálisan lényegesen hasonlóbbak voltak, mint az ortológusok, de altípusokba sorolva arról számoltak be, hogy az egy az egyben ortológusok funkcionálisan a leginkább hasonlóak. Az elemzést a funkció szintjén végeztük az expressziós hálózat hasonlóságainak vizsgálatával emberben, egérben, légyben és féregben.

Tehát bár a bizonyítékok egyensúlya az ortológus sejtés megerősítése felé mutat, a funkcionális adatok mindeddig nem tudták erősen alátámasztani vagy érvényteleníteni azokat. Még azok az eredmények is, amelyek alátámasztják az ortológus sejtést, gyakran igen csekély különbségekkel járnak az ortológusok és a paralógok között [8,10]. Az expressziós adatoknak azonban különösen képesnek kell lenniük e probléma megoldására, mivel funkcionális bizonyítékot szolgáltat számos gén számára ugyanolyan módon fajonként, anélkül, hogy megállapítanák a GO-annotációk vagy más kis méretű adatgyűjtemények megállapítási torzulásait. A probléma része, hogy az expresszió szintje és a génfunkció közötti kapcsolat nem közvetlen, ezért nem világos, hogy milyen biológiai jelet hasonlítanak össze ezeknek a szinteknek a korrelációiban. További probléma, hogy a különböző transzkriptóm adathalmazok összehasonlítása a fajok között mindenütt jelenlévő gének [19] vagy kötegelt hatások [20] által előidézett torzításoktól szenved.

Elemzésünk során az expresszió szövetspecifitására koncentráltunk. A szövet-specifitás azt jelzi, hogy egy gén hány szövetben expresszálódik, és hogy vannak-e nagy expressziós különbségek közöttük. A gén funkcionalitását tükrözi: ha a gén sok szövetben expresszálódik, akkor "házmegőrzés", és számos szervben és sejttípusban szükséges funkcióval rendelkezik; a szövetspecifikus géneknek specifikusabb szerepük van, és a szövetekkel igazított funkciók. A legfrissebb eredmények azt mutatják, hogy az emberi és egér ortológusok konzerválódtak a szövet-specifitással, és funkcionálisan informatívak [21]. Ezenkívül a szövet-specifitás összehasonlítható módon kiszámítható a különböző állat-állományokban, figyelemre méltó torzítások nélkül, feltéve, hogy legalább 6 szövet van jelen, ideértve előnyösen a herét, az idegrendszert, és arányosan nem túl sok ugyanazon szervrész (pl. Nem az agy számos része).

Vannak-e jelentős különbségek a szövetspecifitás kialakulása között a duplikáció után (paralógok) vagy duplikáció nélkül (ortológusok)? Elemezzük az egy az egyben ortológusok és a fajon belüli paralógok evolúciós idővel történő megőrzését, 12 faj RNS-seq adatkészleteinek felhasználásával.

Eredmények

Összehasonlítottuk 12 faj ortológusait: emberi, csimpánz, gorilla, makákó, egér, patkány, tehén, oposszum, kacsacsőrke, csirke, béka és gyümölcslégy. Összesen 7 különböző RNS-seq adatkészletet alkalmaztunk, köztük 6–27 szövetet (lásd: Anyagok és módszerek). Három összehasonlítást hajtottunk végre a legnagyobb halmazokkal, fókuszadatként: 27 emberi szövetet Fagerberg és munkatársai, 16 emberi szövetet a Bodymap és 22 szövetet az egér ENCODE [22–24]. Valamennyi elemzéshez az expresszió szövetspecifitását használtuk, az Anyagok és módszerek részben leírtak szerint.

Az első figyelemre méltó eredmény az, hogy a szövet-specifitás szoros összefüggésben van az egy az egyben ortológusok között. Az emberi és négy másik faj közötti összefüggéseket az 1A. Ábra szemlélteti. Ez megerősíti és kiterjeszti korábbi megfigyelésünket [21], amely egy emberi és egy egér adatkészleten alapult. A szövet-specifitás korrelációja a tetrapodák között 0,74 és 0,89 között változik, az ember és a légy között továbbra is 0,43, az egér és a légy között 0,38. Ez utóbbi annak ellenére, hogy az anatómia és a szövetminták között nagyon nagy különbségek vannak az összehasonlított fajok között, megmutatja, hogy az evolúcióban mennyire lehet konzervált szövet-specifitás.

A szövetspecifitás Pearson-korrelációja a) ortológusok és b) paralógok között. a) Humán ortológus vs. egy-egy ortológus egy másik fajban; b) a legmagasabb expressziós paralog, szemben a legkevésbé kifejezett paralog emberben, különböző duplikációs dátumokra.

Az ortológusok közötti korreláció csökken a divergencia idővel (2. ábra). A csökkenés lineáris. Az exponenciális modell nem szignifikánsan jobb: az ANOVA nem volt szignifikánsan jobb a log10 időtartamú modellnél, mint a transzformálatlan idő bármely adatkészlet esetében (p> 0,0137, q> 1%). A tendenciát nem a kiugró repülési adat okozta: annak eltávolításával továbbra is jelentősen csökken az ortológusok korrelációja (lásd S1 ábra). Az eredmények szintén szilárdak a Spearman alkalmazásával a Pearson-korreláció helyett a szövetspecifitási értékek között.

A szövetspecifitás Pearson-korrelációja az a) emberre és b) egérre összpontosítva. X tengely, divergencia idő millió évben az összehasonlított gének között; Y tengely, Pearson-korreláció a τ értékei között a gének felett. Piros színnel az ortológusok korrelációja a gócfajok és más fajok között; reprezentatív fajokat mutatunk be az ábra felett; több pont van, ha ugyanazon fajra több adatkészlet van, pl. négy az egérhez (1. táblázat); a vörös körök mérete arányos a szövet-specifitás kiszámításához használt szövetek számával. Kék színnel a paralógok korrelációja a gócfajokban, a duplikáció dátuma szerint; az ábrán az e keltezés reprezentatív rendszertani csoportjait mutatjuk be; a kék körök mérete arányos a paralóg csoportban található gének számával.

A fajon belüli paralógok közötti összefüggés szignifikánsan alacsonyabb, mint az ortológusok között (ANOVA p 3. ábra. A szövetspecifitás megoszlása ​​a paralogokban egy outgroup ortológussal összehasonlítva.

Minden grafikonon egy adott filogenetikai korú paralogokat hasonlítunk össze a legközelebbi outgroup un duplikált ortológussal; így ezek a paralógok "in-paralogok" a speciációs csomóponthoz képest, és mindkettő a "out-group" ortológusai. X tengely, a nem duplikált ortológium τ. Y tengely, a paralógok τ. A kék pontok a paralóg párjának maximális expresszióját jelentő paralog értékei, a narancssárga pontok a másiknak.

Amikor egy pár mindkét ortológusa szövetspecifikus (τ> 0,8), akkor leggyakrabban ugyanabban a szövetben fejeződnek ki (4. ábra). Ugyanez figyelhető meg, amikor mindkét paralóg szövetspecifikus és fiatalabb, mint a tetrapodák divergenciája. De az Euteleostomi és a Vertebrata paralógok esetében, ha mindkettő szövetspecifikus, akkor ugyanolyan valószínűséggel fejeződnek ki a különbözőekben, mint ugyanazokban a szövetekben; ezek többsége várhatóan ohnológus, vagyis a teljes genom duplikációja miatt. Ezt az elemzést Brawand et al. (2011) adatkészlet, mert ugyanabban a 6 szövetben van a legtöbb organizmus. Ez az eredmény nem változik a herék eltávolítása után (Q ábra az S1 ábrán), és nem változik a τ küszöbérték 0,8-ról 0,3-ra (R-S ábra az S1 ábrán). Az összes szövetspecifikus gén eltávolítása után (τ> 0,8) az ortológusok és a paralógok közötti különbség kisebb, de szignifikáns marad (ANOVA p = 0,001) (T ábra az S1 ábrán).

Minden oszlop az adott filogenetikai korban egy adott típusú génpárok számát jelöli, amelyek esetében a pár mindkét génje szövetspecifikus (τ> 0,8). Sötét színben az azonos szövetre specifikus génpárok száma; világos színben a különböző szövetekre jellemző génpárok száma. Az ortológusok piros színnel, a bal panelen, a paralógok kék színnel, a jobb oldalon; vegye észre, hogy az ortológusok és a paralógok skálája eltérő. Az ortológusok egytől egyig az ortológusok, az embernél a paralógok fajon belüli paralógok. Az azonos vagy különböző szövetekben lévő párok teljes arányát ortológusok és paralógok jelzik; ezenkívül a paralógok esetében a tetrapodák divergenciájánál fiatalabb párok aránya (teljes genom duplikáció) is fel van tüntetve.

Vita

Eredményeink azt mutatják, hogy a legtöbb gén szövetspecifitása konzervált a fajok között. Ez erős új bizonyítékot szolgáltat az expressziós minták evolúciós megőrzésére. Az expressziós értékek helyett a szövetspecifitás alkalmazása egyszerűvé teszi a fajok összehasonlítását, mivel a normalizálás vagy a különböző adatkészletek használatának torzítása kevéssé befolyásolja az eredményeket [21]. Valamennyi eredményünket három különböző fókuszadatkészlettel igazoltuk, emberi vagy egérből, és ezért elég robusztusnak tűnnek.

A fehérjét kódoló gének expressziós szövet-specifitásának megőrzése magas, még elég távoli egy-egy ortológusok esetében is: Pearson-korreláció τ emberben vagy egérben és τ békában R = 0,74 (R = 0,66) 361 felett a divergencia. A légy és az emlősök között is több mint 0,38. Sőt, ez a szövet-specifitás könnyen összehasonlítható nagy adathalmazokon anélkül, hogy szűkített homológ szövetkészletet válogatnánk (például [7,13] -ben). Az ortológusok közötti összefüggés a legutóbbi specifikációk esetében a legerősebb, és a divergencia idővel lineárisan csökken. Ez a csökkenés azt mutatja, hogy egy erős evolúciós jelet képesek vagyunk kimutatni a szövet-specifitásban, ami az ortológusok funkcionális összehasonlításában nem mindig volt nyilvánvaló (pl. [5,8]).

A szövet-specifitás általános megőrzése a gének egy részhalmazának, és különösen a nemhez kapcsolódó géneknek köszönhető. Valójában a legnagyobb szövet-specifikus génkészlet a here-specifikus [21]. A nemi vonatkozású gének hatásának igazolásához minden elemzést elvégeztünk here expressziós adatok nélkül, vagy a nemi kromoszómákhoz leképezett gének nélkül. Miután eltávolította a herék expresszióját az összes adatkészletből, a paralógok közötti összefüggés nem változik jelentősen, míg az ortológusok között jelentősen gyengül. Az ortológusok alacsonyabb korrelációja arra utal, hogy a here specifikus gének konzerválódnak a fajok között, és mivel ezek a szövetspecifikus gének nagy részét képezik, erősen hozzájárulnak a korrelációhoz. A nemi kromoszómában található gének eltávolítása nem változtatja meg jelentősen az eredményeket. A herék expressziójának eltávolítása után az ortológusok és a paralógok közötti szövetspecifitás megőrzésének különbségei jelentősek maradnak. Összességében úgy tűnik, hogy a herével számított szövet-specifitás valódi biológiai jelet képvisel, és nagy hatása miatt fontos, hogy ezt a szövetet bevonjuk az elemzésekbe.

Általában a paralógok szövetspecifikusabbak és alacsonyabb az expressziós szintjük. Ez megmagyarázható, ha a mindenütt jelenlévő gének kevésbé hajlamosak a duplikációra vagy a duplikált retencióra. Mégis nem észlelünk semmiféle torzítást a duplikátumok ortológusaiban a szövetspecifikusabb gének felé (3. ábra; lásd még az S1 ábrát). Idővel mindkét paralóg szélesebb körben kifejeződik (1. ábra és P ábra az S1 ábrán). Abban a ritka esetben, amikor mindkét paralóg szövetspecifikus, a kis méretű fiatal paralógok ugyanabban a szövetben, míg a genom egészére kiterjedő régi paralógok (ohnológok) különböző szövetekben expresszálódnak (4. ábra). A rendelkezésre álló adatok alapján nem tudjuk megkülönböztetni a paralóg kor és a duplikációs mechanizmus hatásait, mivel sok régi paralóg a gerincesek teljes genom-duplikációjának köszönhető, míg a fiatal paralógok esetében ez nem így van. Sok esetben a magasabb expressziójú paralog hasonló szövetspecifitással rendelkezik, mint az ősállapot, míg az alacsonyabban kifejezett paralog szövetspecifikusabb (3. ábra).

Vizsgáltuk a génspecificitást anélkül, hogy figyelembe vettük volna az alternatív splicingeket, vagy annak lehetőségét, hogy a különböző transzkriptumok különböző szövetekben fejeződjenek ki, mivel továbbra is nehéz megbízhatóan hívni a transzkriptum szintű expressziót [29]. Ez valószínűleg nem változtatna a fő megfigyeléseinken, miszerint a szövet-specifitás konzerválódik az ortológusok között, eltér az evolúciós idővel és követi az ortológus sejtést. Megjegyzendő, hogy a legújabb eredmények nem támasztják alá az alternatív splicing fontos szerepét a szövetek közötti transzkripció különbségei szempontjából [30,31].

A funkció megőrzésének becsléséhez szövetspecifitást használtunk, nem pedig a génontológia annotációi vagy az expressziós szintek helyett. Úgy gondoljuk, hogy ez a mutató kevésbé hajlamos a szisztematikus hibákra, legyen szó annotációs torzításokról a gén ontológiánál, vagy az adatok megfelelő normalizálásáról és kevés szövet kiválasztásáról az expresszió szintjéhez. Eredményeink megerősítik az egész oromra kiterjedő és funkcionálisan releváns adatok Ortholog sejtését: az ortológusok jobban hasonlítanak, mint a fajon belüli paralógok. Sőt, az ortológusok monoton módon térnek el az időtől, a várakozásoknak megfelelően. Épp ellenkezőleg, még a fiatal paralógok is nagy különbségeket mutatnak.

Anyag és módszerek

Az elemzéshez 12 faj (humán, gorilla, csimpánz, makákó, egér, platypus, opossum, csirke, gorilla, tehén, béka, patkány és gyümölcslégy) RNS-seq adatait használtuk. Visszaszereztük az összes állati RNS-szekvencia adatsort, amelyek legalább 6 felnőtt szövetet lefednek, és amelyeket vagy Bgee-ben előzetesen feldolgoztak [32], vagy pedig a publikációból előre feldolgozott adatokat szolgáltattunk 2015. júniusától. Ember, egér és csirke esetében több adatkészletet használtunk. Az összes megfelelő számú szövetet tartalmazó adathalmazokat az 1. táblázat foglalja össze. Az elemzéshez felhasznált gének száma az S1 táblázat A. és B. táblázatában található.