A farkasok étrendje DNS metabarkódolás alapján

Itt van egy bemutató arról, hogyan lehet elemezni az Illumina szekvenszerekkel előállított DNS metabarcing adatokat:

farkasok

  • az OBITools
  • néhány alapvető Unix-parancs

Az oktatóanyagban felhasznált adatok négy farkasfertőzés elemzésének felelnek meg, a Shehzad et al. (2012) a húsevő étrend értékelésére. Miután a DNS-t kivontuk a székletből, a DNS-amplifikációkat a 12S-V5 régiót amplifikáló TTAGATACCCCACTATGC és TAGAACAGGCTCCTCTAG primerek alkalmazásával hajtottuk végre (Riaz et al. 2011), farkast blokkoló oligonukleotiddal együtt.

A teljes adatkészlet innen tölthető le: az oktatóanyag adatkészlete

Mindig célszerű megnézni a köztes eredményeket, vagy ki kell értékelni az egyes lépések legjobb paraméterét. Néhány parancsot erre a célra terveztek, például használhatja:

Adat

Az oktatóanyag futtatásához szükséges adatok a következők:

A GA IIx (Illumina) páros végű (2x108 bp) szekvenálási vizsgálatából származó fastq fájlok négy farkas székletből kivont és amplifikált DNS-sel:

az összes szekvenált mintához használt primereket és címkéket leíró fájl:

  • wolf_diet_ngsfilter.txt A címkék rövid és specifikus szekvenciáknak felelnek meg, amelyeket az egyes primerek 5 ’végére adtak a különböző minták megkülönböztetéséhez.

a referencia adatbázist tartalmazó fájl fasta formátumban:

  • db_v05_r117.fasta Ezt a referenciaadatbázist kivontuk az EMBL 117. kiadásából az ecoPCR használatával

az NCBI rendszertan ecoPCR formátumban formázva (a részleteket lásd az obiconvert segédprogramban):

  • embl_r117.ndx
  • embl_r117.rdx
  • embl_r117.tdx

Lépésről lépésre elemzés

A teljes sorrendű beolvasások visszaállítása előre és hátra részleges olvasásokból

Ha egy páros végű szekvenálási teszt eredményét állítólag átfedő előre és hátra olvasással használjuk, akkor az első lépés az összeállított szekvencia helyreállítása.

Ugyanazon töredék előre és hátra olvasása ugyanabban a vonalban van a szekvenálás után kapott két fastq fájlban. E két fájl alapján az előre és hátra olvasás összeállítása az illuminapairedend segédprogrammal történik, amely igazítja a két olvasatot és visszaadja a rekonstruált szekvenciát.

Esetünkben a parancs a következő:

A --score-min opció lehetővé teszi az alacsony beállítási minőségű szekvenciák elvetését. Ha az igazítási pontszám 40 alatt van, akkor az előre és hátra olvasás nem lesz igazítva, hanem összefűzve, és a szekvenciafejlécben a mode attribútum értéke össze van állítva igazítás helyett

Távolítsa el az igazítatlan sorozatrekordokat

Nem illesztett szekvenciák (mód = összekapcsolt) nem használhatók. A következő parancs lehetővé teszi azok eltávolítását az adatkészletből:

A -p -hoz python kifejezés szükséges. A mode! = "join" azt jelenti, hogy ha a mode attribútum értéke eltér a join-tól, akkor a megfelelő szekvenciarekordot megtartjuk.

A wolf.ali.fastq első szekvenciarekordja a következő parancssor használatával nyerhető el:

És az eredmény:

Rendeljen minden szekvencia rekordot a megfelelő minta/marker kombinációhoz

Minden szekvenciarekord a megfelelő mintához és jelölőhöz van hozzárendelve egy szövegfájlban (itt wolf_diet_ngsfilter.txt) megadott adatok felhasználásával. Ez a szöveges fájl mintánként egy sort tartalmaz, a kísérlet nevével (több kísérlet is bekerülhet egy fájlba), a címkék nevével (például: aattaac, ha ugyanazt a címkét használták a PCR minden szélén termékek, vagy aattaac: gaagtag, ha a címkék különböztek volna), az előreindító primer szekvenciája, a fordított primer szekvenciája, a T vagy F betű a minta azonosításához, csak a primer és a tag segítségével, vagy mindkét primer és mindkét címke használatával (a részleteket lásd az ngsfilterben).

Ez a parancs két fájlt hoz létre:

  • unidentified.fastq tartalmazza az összes szekvencia rekordot, amelyeket nem rendeltek hozzá minta/marker kombinációhoz
  • wolf.ali.assigned.fastq tartalmazza az összes szekvencia rekordot, amelyet megfelelően rendeltek hozzá egy minta/marker kombinációhoz

Ne feledje, hogy a wolf.ali.assigned.fastq fájl minden szekvencia rekordja csak a vonalkód szekvenciát tartalmazza, mivel az primerek és címkék szekvenciáját az ngsfilter program eltávolítja. A kísérlettel, a mintával, az alapozókkal és a címkékkel kapcsolatos információkat attribútumként adjuk hozzá a szekvenciafejléchez.

Például a wolf.ali.assigned.fastq első szekvencia rekordja:

A leolvasás uniq szekvenciákba olvassa

Ugyanaz a DNS-molekula többször is szekvenálható. A fájlméret és a számítási idő csökkentése, valamint az értelmezhetőbb eredmények elérése érdekében kényelmes az egyedi szekvenciákkal dolgozni olvasás helyett. Az ilyen olvasatok egyedi szekvenciákká való lebontásához használjuk az obiuniq parancsot.

Seguritan és Rohwer (2001) átdolgozása

A lebontáshoz az obiuniq parancsot használjuk az -m mintával. A -m minta opciót használjuk az eredetminták információinak megőrzésére minden egyedi szekvenciához.

Vegye figyelembe, hogy az obiuniq egy fasta fájlt ad vissza.

A wolf.ali.assigned.uniq.fasta első sorozatrekordja:

Az obiuniq futtatása két kulcs = érték bejegyzést adott hozzá a fasta sorozat fejlécébe:

  • merged_sample =: ez a szekvencia egyszer megtalálható egyetlen mintában, a 29a_F260619 nevű mintában
  • count = 1: ennek a szekvenciának a teljes száma 1

Csak a két kulcs = érték attribútum megtartásához használhatjuk az obiannotate parancsot:

A wolf.ali.assigned.uniq.fasta első öt szekvenciarekordja:

Denonizálja a szekvenciaadatkészletet¶

Ha a megfelelő mintákhoz szekvenciákat rendelünk, ez nem jelenti azt, hogy az összes szekvencia biológiailag értelmes, azaz ezeknek a szekvenciáknak egy része tartalmazhat PCR és/vagy szekvenálási hibákat vagy kimérákat. Az ilyen szekvenciák lehető legnagyobb mértékű eltávolítása érdekében először elvetjük a ritka szekvenciákat, majd a következményváltozatokat, amelyek valószínűleg megfelelnek a műtermékeknek.

Szerezd meg a számlálási statisztikát

Ebben az esetben az obistat használatával megkapjuk a számlálási statisztikákat a ’count’ attribútumról (a count attribútumot az obiuniq parancs adta hozzá). Ha az eredményt a Unix parancsokba soroljuk és fejezzük be, akkor csak a „count” attribútum 20 legkisebb értékének számlálási statisztikáját vezetjük.

Ez kinyomtatja a kimenetet:

Az adatkészlet 3504 szekvenciát tartalmaz, amelyek csak egyszer fordulnak elő.

Csak azokat a szekvenciákat tartsa meg, amelyek száma nagyobb vagy egyenlő 10-vel, és hossza rövidebb, mint 80 bp¶

Az előző megfigyelés alapján a további elemzéshez szükséges szekvenciák megtartásának határértékét 10-re állítottuk be. Ehhez az obigrep parancsot használjuk. A -p 'count> = 10' opció azt jelenti, hogy a> = 10 python kifejezések számát True értékre kell értékelni minden megtartandó szekvenciához. Korábbi ismereteink alapján eltávolítjuk a 80 bp-nél rövidebb szekvenciákat is (-l opció), mivel tudjuk, hogy a gerincesek számára felerősített 12S-V5 vonalkódnak 100 bp körül kell lennie.

A wolf.ali.assigned.uniq.c10.l80.fasta első szekvencia rekordja:

Tisztítsa meg a szekvenciákat PCR/szekvencia hibák (szekvenciaváltozatok) ¶

Utolsó denoising lépésként az obiclean program használatával megtartjuk azokat a fej-szekvenciákat (-H opció), amelyek olyan változatok nélküli szekvenciák, amelyek száma meghaladja a saját számuk 5% -át (-r 0,05 opció).

A wolf.ali.assigned.uniq.c10.l80.clean.fasta első szekvencia rekordja:

A szekvenciák taxonómiai hozzárendelése

A denoázás elvégzése után az étrend elemzésének következő lépése a vonalkódok hozzárendelése a megfelelő fajokhoz, hogy az egyes mintákhoz tartozó fajok teljes listája elkészüljön.

A szekvenciák taxonómiai hozzárendeléséhez referencia-adatbázisra van szükség, amely az összes lehetséges fajt összeállítja a mintában. Ezután a hozzárendelést a mintaszekvenciák és a referenciaszekvenciák közötti szekvencia-összehasonlítás alapján végezzük.

Referencia adatbázis létrehozása

A referenciaadatbázis összeállításának egyik módja az ecoPCR program használata a PCR szimulálására és az EMBL-ből az összes szekvencia kivonására, amelyeket a PCR-amplifikációhoz használt két primer (TTAGATACCCCACTACTGC és TAGAACAGGCTCCTCTAG) in silico képes amplifikálni.

A referencia adatbázis felépítésének teljes listája ekkor a következő lenne:

  1. Töltse le az EMBL szekvenciák teljes készletét (elérhető: ftp://ftp.ebi.ac.uk/pub/databases/embl/release/)
  2. Töltse le az NCBI taxonómiáját (elérhető: ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz)
  3. Formázza őket ecoPCR formátumba (lásd: obiconvert, hogyan készíthet ecoPCR kompatibilis fájlokat)
  4. Az ecoPCR segítségével szimulálja az amplifikációt, és állítson össze egy referenciaadatbázist feltételezhetően erősített vonalkódok és rögzített taxonómiai információik alapján.

Mivel az 1. és a 3. lépés valóban időigényes lehet (kb. Egy nap), a következő parancsok által létrehozott referenciaadatbázist biztosítjuk, hogy átugorhassa annak felépítését. Vegye figyelembe, hogy mivel az EMBL adatbázis és a taxonómiai adatok naponta fejlődhetnek, a következő parancsok futtatásával egészen más eredményekkel járhat.

Bármely segédprogram használható, amely lehetővé teszi a fájlok letöltését egy ftp webhelyről. A következő parancsokban a gyakran használt wget Unix parancsot használjuk.