Az élelmiszer-tartalmak feltárása a tudományos irodalomban az FoodMine-nel

Tárgyak

Absztrakt

A sok kémiai és táplálkozási alkotóelemnek köszönhetően az étrend kritikusan befolyásolja az emberi egészséget. Az élelmiszerek összetételéről jelenleg rendelkezésre álló átfogó adatbázisok azonban az élelmiszereinkben jelen lévő összes vegyi anyagnak csak egy kis részét fedik le, az egészségünk szempontjából nélkülözhetetlen táplálkozási összetevőkre összpontosítva. Valójában több ezer más molekula, amelyek közül soknak jól dokumentált egészségügyi következményei vannak, továbbra sem maradnak nyomon. Az élelmiszerek összetételével kapcsolatos ismeretek összegyűjtése érdekében felépítettük a FoodMine algoritmust, amely természetes nyelvi feldolgozással azonosítja a PubMed papírjait, amelyek potenciálisan beszámolnak a fokhagyma és a kakaó kémiai összetételéről. Miután minden papírból kivontuk a jelentett vegyi anyagok mennyiségét, azt tapasztaltuk, hogy a tudományos szakirodalom kiterjedt információt tartalmaz az élelmiszerek részletes kémiai összetevőiről, amelyek jelenleg nincsenek integrálva az adatbázisokba. Végül a felügyelet nélküli gépi tanulást használjuk kémiai beágyazások létrehozására, megállapítva, hogy az FoodMine által azonosított vegyi anyagok általában közvetlen egészségügyi jelentőséggel bírnak, tükrözve a tudományos közösség figyelmét az élelmiszereinkben az egészséggel kapcsolatos vegyi anyagokra.

Bevezetés

Az élelmiszerek kémiai összetételére vonatkozó központosított információk hiánya nem egyenlő az e vegyi anyagok iránti tudományos vagy kereskedelmi érdeklődés hiányával: kivételes mennyiségű kutatás összpontosít bizonyos vegyi anyagok jelenlétének azonosítására és számszerűsítésére a különféle élelmiszerekben, valamint az egészségre gyakorolt ​​következményekkel. valamint az élelmiszerek által szállított vegyi anyagok biokémiai szerepe. A probléma az, hogy az élelmiszerek kémiai összetételére vonatkozó adatok szétszóródnak a különféle tudományos irodalmakban, a különböző tudományos közösségeket átfogva, a mezőgazdaságtól az élelmiszer-kutatásig, az egészségtudományoktól a biokémiaig. Míg figyelemre méltó erőfeszítéseket tettünk ennek a kiterjedt irodalomnak részben a bányászatára és a szétszórt adatok adatbázisokba történő katalogizálására, mint például a Phenol Explorer fókusza a polifenolokra vagy az eBASIS az emberi beavatkozási vizsgálatok elsőbbségének meghatározása 6,12,13, nincs erőfeszítésünk ennek elérésére a teljes élelmiszerellátás és vegyszerek.

Az élelmiszerekkel kapcsolatos meglévő információk feltérképezésére irányuló szisztematikus erőfeszítések hiánya arra késztetett bennünket, hogy megkérdezzük, mennyi információ áll rendelkezésre az élelmiszerek összetételéről. Kidolgoztuk a FoodMine nevű kísérleti projektet, amelynek célja a tudományos irodalom szisztematikus bányászata, hogy azonosítsuk és összegyűjtsük az egyes összetevők összes kémiai összetételi adatait. Ezért bemutatjuk a FoodMine kínálta képességeket azáltal, hogy a fokhagymára és a kakaóra összpontosítunk, olyan élelmiszerekre, amelyek jól dokumentált egészségkárosító hatással bírnak, ami arra utal, hogy számottevő, de szétszórt irodalom létezik, amelyek kémiai tartalmukról tartalmaznak információkat. Az itt összegyűjtött ismeretek pilóta szolgálnak a jövőbeni átfogó, szisztematikus erőfeszítések felé, amelyek célja az összes élelmiszer kémiai összetételére vonatkozó, a tudományos irodalomban rendelkezésre álló információk azonosítása és rendszerezése.

Eredmények

tudományos

Az adatgyűjtési folyamat áttekintése. A PubMed-től kezdődően a Pubmed Entrez API használatával kikértük a papírcímek és az absztraktok listáját, majd a szövegegyeztetést alkalmazva automatikusan kiszűrtük a keresési eredményeket, és megszereztük a papírok egy részhalmazát, amelyeket aztán elolvastak és manuálisan kiértékeltek. Ha a papírok információkat tartalmaztak a kakaó vagy a fokhagyma kémiai tartalmáról, akkor manuálisan kivontuk a vonatkozó információkat. Végül összehasonlítható egységekben alakítottuk át az értékeket. Az „Output” oszlop a fokhagyma és a kakaó minden lépésének eredményét mutatja.

Az összetett rekordokat egyetlen összetett bejegyzésbe integráltuk, és a kvantifikált bejegyzéseket manuálisan felosztottuk a megfelelő összetett osztályukba a FooDB osztályozások alapján, amint az az S2 kiegészítő ábrán látható. Megállapítottuk, hogy a „Karbonsavak és származékai” tartalmazzák a legtöbbet feltárt vegyületeket mind a fokhagymára, mind a kakaóra vonatkozóan, és a „Flavonoidok” osztály mindkét összetevő esetében az első három közé tartozik. E két osztály vegyületei gyakoriak a növényi eredetű táplálékban, ezért várhatóan jelen vannak a fokhagymában és a kakaóban. A különböző fémcsoportokra, a „toxinokra” és a „növényvédő szerekre” vonatkozó jelentéseket is feltártunk. A peszticidek osztályába tartozó számos vegyület egy olyan cikkből származott, amely a Nigéria délnyugati részén fekvő helyi piacok kakaótermékeiben található peszticidmaradványokra összpontosított 21. Helyi fókusza ellenére a vizsgált vegyületek világszerte közvetlenül befolyásolhatják az egészségügyi eredményeket, mivel Nigéria a világ 3. legnagyobb kakaóexportőre 22 .

A FooDB és az USDA adatbázisok lehetővé tették számunkra annak ellenőrzését, hogy az irodalomból nyert információk egyeznek-e vagy ellentétesek-e az ezen élelmiszerek összetételére vonatkozó meglévő ismeretekkel (az összehasonlítási módszertan részletes leírását lásd a Kiegészítő anyagok 2. szakaszában). Az elemzés lefedettségének maximalizálása érdekében összevontuk a fokhagyma és a kakaó különböző variációit az USDA és a FooDB adatbázisokban, például a „fokhagyma” és a „puha nyakú fokhagyma” egyesítését a FooDB-ben, amikor összehasonlítottuk az információkat a FoodMine-nel. Az USDA-ban az összes jelentett vegyületet számszerűsítik, míg a FooDB mind kvantifikált, mind nem kvantifikált vegyületeket sorol fel. Számítottnak tekintünk egy vegyületet, ha legalább egy abszolút mérést jelentenek a kiválasztott élelmiszerekre. Összességében azt tapasztaljuk, hogy a FoodMine több egyedi vegyületet nyert fel, mint amennyit az USDA felsorolt ​​(2A, B ábra), és több mennyiségi vegyületet, mint amennyit a FooDB katalogizált. Míg a FooDB-ben és az USDA-ban a vegyületeknek csak 7–9% -át számszerűsítik fokhagymára és kakaóra, a FoodMine-en keresztül számszerűsített információkat gyűjtöttünk a fokhagymavegyületek 70% -áról és a kakaóvegyületek 66% -áról (lásd a Kiegészítő anyagok 3. szakaszát). A kakaó és a fokhagyma esetében a FooDB és az USDA több számszerűsítetlen vegyületet tartalmaz, mint amennyit számszerűsíteni lehet. Azt azonban megállapítjuk

Az irodalomban közölt információk 70% -át számszerűsítették, jelezve, hogy az irodalom kiterjedt információt tartalmaz, amelyet jelenleg nem rögzítenek az adatbázisok (lásd a Kiegészítő anyagok 3. szakaszát). Ezenkívül 96 számszerűsített fokhagymavegyület és 283 számszerűsített kakaóvegyület újszerű, ami azt jelenti, hogy korábban nem kapcsolódtak az USDA vagy a FooDB két összetevőjéhez. Összefoglalva, a számszerűsített vegyületek 48% -a, illetve 72% -a újszerű mind a fokhagymában, mind a kakaóban, ezért a FoodMine által kínált számszerűsített mérések átlagos növekedése meghaladja a 137% -ot (lásd a 3. kiegészítő részt). Ezek a megállapítások arra utalnak, hogy a tudományos szakirodalomban szétszórt információk szisztematikus bányászata jelentősen javíthatja az élelmiszer-összetételről szóló jelenlegi ismereteinket.

A FoodMine, az USDA és a FooDB által kinyert egyedi vegyületek száma. A ábrák mutatják az USDA, a FooDB és a FoodMine által jelentett egyedi vegyületek számát. Az oszlopok (1) mutatják az egyes adatbázisok egyedi, számszerűsített vegyületeinek teljes számát, (2) az egyes adatbázisok egyedi, nem kvantifikált vegyületeinek teljes számát, és (3) az FoodMine által visszakeresett és az USDA-ban még soha nem jelentett mennyiségi vegyületek számát. FooDB.

A FoodMine-ben a leggyakrabban közölt vegyületekről (3. ábra) ismert, hogy fontos szerepet játszanak az egészségre gyakorolt ​​hatásokban és az ízben. Például a diallil-diszulfidról ismert, hogy hozzájárul a fokhagyma illatához és ízéhez. Ennél is fontosabb, hogy szerepet játszik a fokhagyma, különösen a fokhagymaallergia 23,24 egészségügyi hatásaiban. Ennek ellenére sem az USDA, sem a FooDB nem nyújt számszerűsített információt a vegyületről. Ez nem elszigetelt eset, mivel a 3. ábra mutatja, hogy a FooDB és az USDA hiányzik információval más gyakran feltárt vegyületekről is. A nagyszámú élelmiszer tápanyagprofiljának szisztematikus jellemzésének szükségessége - ahogy az USDA is teszi - hiányol információkat azokról a vegyületekről, amelyek néhány egyedi élelmiszerre jellemzőek, annak ellenére, hogy potenciálisan szerepet játszanak az egészségügyben. Valóban, a kakaó első tíz vegyületéből hármat nem számszerűsítenek a FooDB-ben, egyet pedig nem sorolnak fel, míg a fokhagymánál az első tíz vegyület közül ötet nem számszerűsítik.

A FoodMine-ben leggyakrabban előforduló vegyületek. A grafikonok a 10 leggyakrabban előforduló vegyületet mutatják a (A) fokhagyma és (B) kakaó, felmérve az egyes termékek iránti érdeklődést. Az y tengely az összetett nevet, az x tengely pedig az adott vegyületre vonatkozó rekordokat tartalmazó papírok számát mutatja.

Az összegyűjtött számszerűsített adatok pontosságának megértése érdekében összehasonlítottuk a FoodMine vegyület méréseit a megfelelő értékekkel az USDA-ban, amely a mérési megbízhatóság arany standardja a nemzeti élelmiszer-összetételi adatbázisok között. Tekintettel az USDA által jelentett korlátozott tápanyag-panelre, a fokhagymára visszanyert kémiai vegyületeknek csak 11% -át, a kakaó esetében pedig 5% -át tudtuk összehasonlítani. A visszanyert információk a molekulák teljes spektrumát lefedték, összekeverve a vegyületeket kis és nagy relatív mennyiségekkel is (4. ábra). Összességében jó megállapodást találunk a FoodMine által visszanyert és az USDA által jelentett értékek között (a statisztikákat lásd a 3. kiegészítő részben. A fokhagyma logaritmikus R-négyzet értéke 0,82, ami figyelemre méltó összefüggést mutat az ismert mennyiségek és a FoodMine rekordok között, míg a kakaó csak a 0,56-ot érte el. A kakaó alacsonyabb korrelációja az aminosavak egy csoportjának köszönhető, amelyről a pörkölt kakaó tartalmát vizsgáló tanulmányok számoltak be. Ez a feldolgozási lépés megváltoztatja sok vegyi anyag mennyiségét, ami magyarázhatja a különbséget az USDA 18,19 méréseivel szemben. Ha eltávolítjuk a pörkölt kakaóra vonatkozó adatokat, a logaritmikus R négyzet 0,75-re növekszik.

A FoodMine és az USDA mérési összehasonlításai. Az USDA által közölt tápanyag-koncentrációk (x-tengely), a FoodMine-ben lévő megfelelő vegyületek tartalmi értékei alapján ábrázolva (y-tengely). A szaggatott vonal az átlót jelöli. Három és két vegyületet kizártunk a (A) fokhagyma és (B) kakaót, mert az USDA nulla értéket jelentett ezekre a vegyületekre.

A vegyi beágyazások TSNE-dimenziós csökkentése egészségügyi társulásokkal. TSNE parcellák a Mol2Vec fokhagymás vegyi beágyazásokról (A-C) és a kakaó (D-F). Az egyes adatpontok színei kódolják a vegyületekhez kapcsolódó egészségügyi következmények számát a CTD adatbázis alapján. A sötétszürke vegyületeket 0 egészségügyi asszociációval jelöljük. Bemutatjuk az összes vizsgált vegyi anyagot az FoodMine minden egyes adatbázisában (A,D), USDA (B,E) és a FooDB (C,F). A jelölők kitöltésre kerülnek, ha az adatbázis tartalmazza a vegyszert, és üresek, ha nincsenek.

Vita

Az élelmiszerekben várhatóan több mint 26 000 vegyi anyaggal kapcsolatos, a különféle adatbázisokban közölt ismereteink rendkívül hiányosak. Ez a hiányosság inspirálta erőfeszítéseinket annak megvizsgálására, hogy mennyi további, nem katalogizált tudás szóródik szét a tudományos irodalomban. Ezeknek a vegyületeknek a kísérleti, klinikai, epidemiológiai és demográfiai vizsgálatok - a tápanyagok virtuális „sötét anyaga” - láthatatlansága jelentős akadályt jelent az étrend egészségünkre gyakorolt ​​hatásának szisztematikus megértése felé. A bevezetett FoodMine kísérleti módszeresen átvizsgálta a tudományos szakirodalmat, azonosítva az egyes cikkekben közölt nagyszámú új, számszerűsített vegyületre vonatkozó információkat. Megállapítottuk, hogy az összegyűjtött információk jelentősen kibővítik az élelmiszer-összetétel megértését. Ezenkívül a visszanyert vegyületek közül sok közvetlenül kapcsolódik az egészséghez és a táplálkozáshoz. Például a FoodMine által számszerűsített szulfidok felelősek a fokhagyma egyedülálló egészségügyi hatásaiért, de az USDA vagy a FooDB jelenleg nem számszerűsíti őket.

A fokhagyma és a kakaó csak kettő a több mint ezer természetes táplálék közül, amelyet az emberek általában fogyasztanak, ezért tanulmányunk alátámasztja azt a hipotézist, hogy az irodalomban bőséges információ található más összetevők összetételéről is. Valójában a FoodMine-ben a PubMed-ből származó dokumentumok lekérdezéséhez használt keresési kifejezések szűkek voltak, és a manuálisan kiértékelt dolgozatok szelektivitása csekély, összehasonlítva az irodalomban jelenlévő potenciális ismeretek összességével. Következésképpen valószínűleg vannak további információk a fokhagymáról és a kakaóról, amelyeket a FoodMine még nem rögzített. Más keresési kifejezések, amelyek az élelmiszerek helyett az összetett osztályokra koncentrálnak, további információkat tárhatnak fel ezen összetevők kémiai összetételéről, más összetevőkre is általánosítható ismereteket. Például a „NEPP”, azaz a nem extrahálható polifenolok megcélzásával az FoodMine elvileg képes összegyűjteni és egyértelművé tenni a rendelkezésre álló szakirodalmat, amely az e vegyi anyagok osztályának élelmiszer-tartalmáról számol be, és amelyeket az élelmiszer-adatbázisok gyakran figyelmen kívül hagynak, annak ellenére, hogy kölcsönhatásuk növekszik az emberi bél mikrobiómájával 27,28,29 .

A fokhagymával és a kakaóval kapcsolatos erőfeszítéseink bebizonyították a kémiai összetételükre vonatkozó jelentős, mégis szétszórt irodalom létezését, amely az összetételre vonatkozó információk folyamatos gyarapodását kínálja az élelmiszer-adatbázisokban jelenleg elérhetőekhez képest. Kísérletünk során a kémiai információkra összpontosítottunk, amelyeket a tudósok mértek, de a nyilvánosság számára ténylegesen elveszítették, az elérhető adatbázisokban való tárolás és egyértelműség hiánya miatt. Sőt, a tápanyag sötét anyagát jellemző komplexitás ellenére az élelmiszer-fogyasztás még mindig messze áll a genomi és proteomikai kutatások erőfeszítéseitől a biobankok és konzorciumok felépítésében, az élelmiszerekben azonosított kémiai vegyületek kezelésében és tárolásában. Az élelmiszer-összetételről jelenleg ismert dokumentálása szükséges lépés a további kísérleti erőfeszítések felé. Ebből a szempontból az FoodMine eredménye értékes kiindulópontot jelent a célzott metabolomikához szükséges szabványok megalkotásához, segít meghatározni és számszerűsíteni ezeknek a kémiai vegyületeknek az élelmiszerekben rejlő variabilitását 30,31 .

A következő célunk az adatgyűjtés kiterjesztése több alapanyagra. A nemzeti és nemzetközi felmérésekben - például az NHANES 32 és a FAOSTAT 33 - rendelkezésre álló fogyasztási és termelési statisztikák alapján elsőbbséget biztosítunk keresésünknek. Olyan ételeket célozunk meg, amelyek drasztikusan javíthatnák étrendünk kémiai fedettségét, és hasznosak lennének az egészségügyi tanulmányok. Míg a mérési részletek papírokból történő kivonásához továbbra is kézi kezelésre van szükség, gépi tanulási algoritmusunk a papírokat relevancia szerint rangsorolja, az adatgyűjtés felgyorsítása érdekében. Tekintettel az élelmiszer leírására használt heterogén tudományos nyelvre, ennek a kísérletnek a második fázisa kulcsfontosságú az új nyelvi jellemzők elsajátításához szükséges kiegészítő adatképzés megszerzésében, például az adott n-gramm 34,35 előfordulása érdekében, hogy maximalizálja az algoritmus alkalmazhatóságát különböző ételek, a pontosság elvesztése nélkül.

Mód

Egyetlen egyedi vegyület összes rekordját egyesítettük egyetlen tételbe a számszerűsített rekordértékek átlagának kiszámításával. Mivel a különféle cikkek egy vegyület nevének különböző variációit használják, a PubChem CID-ek segítségével kémiai egyértelműsítési sémát alkalmaztunk kulcsok hozzáadásához a vegyületekhez (lásd a Kiegészítő anyagok 2. szakaszát) 38. Minden bejegyzésnél beszámoltunk az összes adatpont átlagos tartalmi értékéről, mg/100 g egységben standardizálva, és további statisztikákat rögzítettünk, például a vegyi anyag legmagasabb és legalacsonyabb mérési értékét, a mérések közötti szórást és a mérések számát. Végül felhasználtuk a PubChem CID-eket, hogy lekérdezzük a molekula szerkezeti tulajdonságainak (kémiai SMILE) karakterlánc-reprezentációját, amelyet a Mol2Vec inputjaként használtunk. Miután megtudtuk az egyes vegyi anyagok vektorábrázolását, a TSNE használatával tovább csökkentettük a méretet, hogy megkapjuk az 5. ábrán és az S5 kiegészítő ábrán látható térképeket 39 .