Hordozható természetes nyelv feldolgozáson alapuló fenotípus-rendszer fejlesztése

Absztrakt

Háttér

Ez a cikk egy hordozható fenotípus-rendszert mutat be, amely képes szabályalapú és statisztikai gépi tanulás-alapú megközelítések integrálására.

Mód

Rendszerünk az UMLS-t használja a klinikailag releváns jellemzők kivonására a strukturálatlan szövegből, majd megkönnyíti a különböző intézmények és adatrendszerek közötti hordozhatóságot az OHDSI OMOP közös adatmodelljének (CDM) beépítésével a szükséges adatelemek egységesítéséhez. Rendszerünk a szabályalapú rendszerek kulcsfontosságú elemeit (pl. Reguláris kifejezésegyezések) is tárolhatja az OMOP CDM formátumban, ezáltal lehetővé téve számos létező szabályalapú klinikai NLP rendszer újrafelhasználását, adaptálását és kiterjesztését. Kísérleteztük rendszerünket az i2b2 Obesity Challenge korpuszán, mint kísérleti tanulmány.

Eredmények

Rendszerünk megkönnyíti az elhízás és annak 15 társbetegségének hordozható fenotipizálását a strukturálatlan betegelszámolási összefoglalók alapján, miközben olyan teljesítményt ér el, amely gyakran a kihívás résztvevőinek top 10-be tartozik.

Következtetés

Szabványosítási rendszerünk lehetővé teszi számos szabályalapú és gépi tanuláson alapuló osztályozási technika következetes alkalmazását a különböző adatállományokban, amelyek különböző intézményekben és adatrendszerekben származhatnak.

Bevezetés

Az elektronikus egészségügyi nyilvántartást (EHR) gyakran úgy írják le, mint „egy vagy több találkozás által generált beteg-egészségügyi információ longitudinális elektronikus nyilvántartása bármely ellátási környezetben. Ezen információk tartalmazzák a betegek demográfiai adatait, a haladásról szóló feljegyzéseket, a problémákat, a gyógyszereket, az életjeleket, a korábbi kórtörténetet, az oltásokat, a laboratóriumi adatokat és a radiológiai jelentéseket. " [1] Amint az orvosi ellátás egyre inkább adatközpontúvá és bizonyítékokon alapul, ezek az EHR-k a betegértékelés, a fenotipizálás, a diagnózis és a kezelés minden vonatkozásában a döntéshozatalhoz szükséges egészségügyi információk alapvető forrásaivá válnak.

Ezek az EHR-k egyaránt tartalmaznak a) strukturált adatokat, például megrendeléseket, gyógyszereket, laboratóriumokat, diagnosztikai kódokat és strukturálatlan adatokat, például szöveges klinikai előrehaladási jegyzeteket, radiológiai és patológiai jelentéseket. Míg a strukturált adatok nem igényelnek jelentős előfeldolgozást az ismeretek megszerzéséhez, a strukturálatlan adatok elemzésére általában a természetes nyelv feldolgozásának (NLP) technikáit használják. Ezek a strukturálatlan adatok számos másodlagos elemzéshez felhasználhatók, például a klinikai döntéstámogatáshoz, a bizonyítékokon alapuló gyakorlathoz és kutatáshoz, valamint a beteg kohorsz azonosításához szükséges számítási fenotipizáláshoz [2, 3]. Ezenkívül a strukturálatlan adatok nagy mennyiségének manuális címkézése a szakértők által nagyon időigényes és nem praktikus, ha több adatforrásban használják. A strukturálatlan adatokból az NLP-n keresztül történő automatizált információk kinyerése hatékonyabb és fenntarthatóbb alternatívát kínál a kézi megközelítéshez [2].

Amint azt Shivade és munkatársai egy 2013-as felülvizsgálatában összefoglalták. [4], a korai számítógépes fenotípus-vizsgálatokat gyakran felügyelt tanulási problémákként fogalmazták meg, ahol előre definiált fenotípust adtak meg, és a feladat egy olyan betegcsoport létrehozása, amely megfelel a definíció kritériumainak. A strukturálatlan klinikai narratívák összefoglalhatják a betegek kórtörténetét, diagnózisait, gyógyszereket, immunizációkat, allergiákat, radiológiai képeket és laboratóriumi vizsgálati eredményeket, előrehaladási jegyzetek, mentesítési jelentések stb. Formájában, és értékes forrást jelenthetnek a számítási fenotipizáláshoz [5]. Míg a fenotipizálási módszerekkel kapcsolatos további részletekhez az olvasókat olyan áttekintésekre utaljuk, mint például [4, 6], rámutatunk arra, hogy a klinikai narratívák információ-heterogenitása hordozható fenotipizáló algoritmusok fejlesztését kéri. Boland és mtsai. [7] kiemelte a klinikai narratívákban megmutatkozó heterogenitást, az orvosok szaktudásának és viselkedésének, valamint az intézményi környezetnek és felépítésnek az eltérése miatt. A tanulmányok az egységes orvosi nyelvi rendszert (UMLS) vagy más külső ellenőrzött szókészleteket alkalmazták ugyanazon orvosi koncepció különböző kifejezéseinek felismerésére, és a szabványos UMLS annotációkat általában kötelezőnek tekintik a hordozható fenotipizálásnál [8, 9].

Fő célunk az volt, hogy megismertessük a hordozhatóságot a strukturálatlan klinikai nyilvántartások NLP-vezérelt fenotipizálásával kapcsolatos folyamatos kutatási erőfeszítésekkel. Ennek érdekében egy jól definiált fenotipizálási problémát, az i2b2 Obesity Challenge-t kipróbáltunk egy kísérleti tanulmány elvégzése érdekében, és új lépéseket vezettünk be a hordozhatóság érdekében erre a többosztályos és osztály-kiegyensúlyozatlan osztályozási problémára. 1249 beteg szöveges mentesítési összefoglalójából gyűjtöttünk strukturált információkat azáltal, hogy az egyes rekordokat egy kontextus-tudatos elemzőn keresztül elemeztük (MetaMap [10]), és az összes kivont funkciót feltérképeztük az UMLS Concept Unique Identifiers (CUI) -jába. A MetaMap kimenetét ezután egy MySQL adatbázisban tárolták az Observational Medical Outcomes Partnership (OMOP) közös adatmodellben (CDM), az Observational Health Data Sciences and Informatics (OHDSI) együttműködéssel támogatott adatszabványosítási modellben meghatározott sémák felhasználásával.

Felismertük a meglévő szabályalapú (pl. RegEx-alapú) NLP rendszerek hasznosságát, és lehetővé tesszük rendszerünk számára a hordozhatóság bevezetését/javítását azáltal, hogy a szabályalapú NLP rendszerek kulcsfontosságú összetevőit stand-off kommentárként tároljuk [11] a megadott formátumban. az OMOP CDM-ben. Megvizsgáljuk a fenotípus-pontosság és a hordozhatóság közötti kompromisszumot, amelyet nagyrészt figyelmen kívül hagytak, de kritikus jelentőségű. Értékeltük a szabályalapú (RegEx-vezérelt) és a gépi tanulási megközelítések kombinációját, hogy iteratív módon értékeljük a kompromisszumot az elhízás és annak 15 társbetegsége között. Négy gépi tanulási algoritmust futtattunk az adatkészletünkön, és többször elvégeztük az optimalizálást az osztályozási teljesítmény és a hordozhatóság kiegyensúlyozott kompromisszuma érdekében. Különösen a Döntésfa eredményezte a legjobb teljesítményt az F-Micro pontszámmal az intuitív osztályozáshoz 0,9339-nél, a szöveges besoroláshoz 0,9546-nál, az F-Macro-pontszámhoz pedig az intuitív osztályozáshoz 0,6509-nél és a szöveges besoroláshoz 0,6509-nél, a szöveges besoroláshoz pedig 0,7855-höz.

Mód

Hordozható NLP rendszerünk olyan szekvenciális tevékenységeken alapul, amelyek NLP csővezetéket alkotnak, és hat fő összetevőből állnak: a) Adat-előkészítés és Környezetbeállítás, b) Szekció- és határfelismerés, c) Annotációs funkciók kinyerése és leképezése, d) Rendszeres kifejezés-illesztések jelölésekként, e) Osztályozás és f) Teljesítményhangolás.

Környezeti beállítás és adatok előkészítése

Az adatok előkészítése, mint általában, minden adatelemzési projektben a legidőigényesebb lehet, és rendszerfejlesztési utunk nem volt kivétel a szabály alól. Adatkészletünk, egyetlen fájl 1249 beteg szöveges mentési összefoglalóival, az adatok további tisztításához és tisztításához szükség volt az adatok további csökkentésére. Az adattisztítási lépésben több rövidítést azonosítottunk, amelyeket a klinikai vagy demográfiai jellemzők magyarázatára használtunk a törzsfájlunkban. Noha ezek a rövidítések hasznosak a jegyzetelés folyamatának felgyorsításához, vissza kell fordítani őket a teljes kontextusba, hogy a kontextus-tudatos MetaMap elemző megfelelő módon orvosi fogalomként jelölje őket. Ehhez a deabbreviation-hez használtuk a népszerű deabbreviation Perl szkriptet, amelyet Solt et al. [12]. A Perl szkript a Regular Expression (RegEx) minták illesztésére és cseréjére támaszkodik, hogy a kifejezéseket rövid formára visszavonja. A szkript azonban megkövetelte, hogy először szöveges fájlunkat konvertáljuk XML formátumba. Ehhez létrehoztunk egy Python szkriptet, amely minden rekordot elolvas és átalakít XML-dokumentummá.

A következő lépés a törzsfájl felosztása volt egyedi betegrekordokra. A Python és a RegEx használatával kerestük meg a rekordcímkék végét, és ezeket az információkat felhasználva új fájlokat készítettünk minden rekordhoz. Egyéni betegfájlokat igényel a MetaMap, mivel ezek követik az egyes koncepciók helyzetét az egyes betegrekordok kezdetétől. A rekord kulcsszó vége a következő volt:[rekord_vége]’, Amely megkönnyítette a határok felismerését és az új fájlokra történő felosztást. Az 1249 betegrekordot tartalmazó törzsfájl 1249 egyedi betegfájlra lett felosztva.

Szakasz és határ észlelése

Az adatok előkészítése után az volt a célunk, hogy a strukturálatlan adatokból egy bizonyos struktúrát nyerjünk. A betegdokumentumok szemrevételezését követően megfigyeltük az egyes dokumentumokon belüli szakaszok jelenlétét, mint például a „ELSŐDIAGNOSZTIKA” és „A JELENLEGES BETEGSÉG TÖRTÉNETE”. Klinikai ismereteink és nyilvántartásaink szemrevételezése alapján 15 ilyen szakasz listáját állítottuk össze szakaszszakasszal és automatikusan létrehozott egyedi szakaszazonosítóval. Ezután minden páciensrekordot elemeztek a Python karakterlánc-illesztésével a lefordított szótárral a szakaszhatár észlelésére.

Az 1249 betegfájl mindegyikéhez elvégeztük a karakterlánc-illesztést az előre kódolt szakaszok fent említett listájából. Miután észleltük a szakasz fejlécét, megjegyeztük a szakasz kezdő pozíciójának indexét (vagyis a section1start). Folytattuk a fájl elemzését, amíg meg nem találtuk egy új szakasz (azaz a section2start) kezdő indexét. Ezért a section1end határt szakasz2start - 1-ként határoztuk meg. Az összes azonosított szakaszt és azok határait minden rekordhoz ideiglenesen megtartottuk a Python-kódunkban.

Annotációs funkció kibontása és leképezése

A MetaMap kiváló eszköz, amely a klinikai szöveget az UMLS Metathesaurus fogalmakhoz képes leképezni, amelyek általában NLP (automatizált) kommentároknak tekinthetők. A MetaMap szimbolikus, NLP és számítási-nyelvi technikákon alapuló tudásintenzív megközelítést alkalmaz [10]. Minden betegfájlt (1. ábra) egymás után átengedtünk a MetaMap elemzőn, és kimenetét egyedi kimeneti fájlokban tároltuk (2. ábra). Ezután a releváns MetaMap kimeneti elemeket feltérképeztük az OMOP CDM-be ”Note_NLP" Asztal 1.