A mesterséges és a biológiai ideghálózatok normalizálási stratégiái közötti megfelelés

Absztrakt

Bevezetés

Az agyban a normalizálást régóta kanonikus számításnak tekintik [9, 10], és számos érzékszervi területen fordul elő, ideértve a hallókéregben is, változó hangintenzitással [11]; az ol-gyári rendszerben változó szagkoncentrációkig [12]; a retinában pedig a megvilágítás és a kontraszt változó szintjére [13–15]. Úgy gondolják, hogy a normalizálás elősegíti a bemeneti ingerek intenzitás-invariáns reprezentációinak létrehozását, amelyek javítják a diszkriminációt és a dekódolást, amely a lefelé fordul elő [9].

normalizációs

De az érzékszervi (bemeneti) szinten túl van még egy, az agyban mindenütt megtalálható normalizálódás, amely homeosztatikus plaszticitás néven fut [16]. A homeosztázis a rendszer általános képességére utal, hogy helyreálljon valamilyen beállított pontig, miután megváltozott vagy zavart [17]. Kanonikus példa egy ház átlagos hőmérsékletének fenntartására használt termosztát. Az agyban az alapjel különböző formákat ölthet különböző térbeli léptékekben, például egy adott idegsejt céllövési sebessége vagy az idegsejtek populáción belüli megoszlása. Ezt az alapértéket általában viszonylag hosszú ideig (óráktól napokig) közelítik meg. A változások vagy zavarok más plaszticitási mechanizmusok, például az LTP vagy az LTD miatt következnek be, amelyek sokkal gyorsabb időskálán (másodpercről percre) módosítják a szinaptikus súlyokat és az égetési sebességet. Így a homeosztázis kihívása annak biztosítása, hogy a meghatározott pontokat átlagosan tartsák anélkül, hogy a tanulás hatásait „kitörölnék”. Ez egy alapvető stabilitási és plaszticitási dilemmát eredményez. A homeosztázis mechanizmusainak megzavarása számos neurológiai rendellenességben [18–23] szerepet játszik, jelezve ezek fontosságát a normális agyműködés szempontjából.

Ebben a perspektívában kiemeljük a párhuzamot a mély tanulásban alkalmazott normalizációs algoritmusok és az agy homeosztatikus plaszticitási mechanizmusai között. E párhuzamok azonosítása két célt szolgálhat. Először is, a gépi tanulók széles körű tapasztalattal rendelkeznek a normalizálási módszerek elemzésében, és kialakult bennük egyfajta érzékelésük arról, hogyan működnek, miért működnek, és bizonyos módszerek alkalmazása során előnyösebb lehet, mint mások. Ez a tapasztalat kvantitatív betekintést jelenthet az idegtudomány kiemelkedő kihívásaira, ideértve a stabilitás és a plaszticitás közötti kompromisszumot, a térben és időben használt különféle homeosztázis-mechanizmusok szerepét és azt, hogy vannak-e a homeosztatikus funkció fenntartásához kritikus paraméterek, amelyeket kísérletileg elmulasztottak. Másodszor, sok olyan normalizálási technikát alkalmaznak az agyban, amelyeket tudomásunk szerint nem mélyen feltártak a gépi tanulásban. Ez lehetőséget kínál az idegtudósoknak arra, hogy új normalizálási algoritmusokat javasolhassanak megfigyelt jelenségekből vagy bevett elvekből [24], vagy új perspektívákat nyújtsanak arról, hogy a mélyhálózatokban használt meglévő normalizációs sémák miért működnek ilyen jól a gyakorlatban.

A terheléselosztás (homeosztázis) előnyei

A számítástechnikában a „terheléselosztás” kifejezés azt jelenti, hogy az adatfeldolgozási terhelést elosztják a számítási egységek halmazán [25]. Jellemzően a cél az, hogy ezt a terhelést egyenletesen ossza el a hatékonyság maximalizálása és az egységek tétlen idejének csökkentése érdekében (például az interneten forgalmat kezelő szervereknél). Az ideghálózatok esetében a terheléselosztást az alapján határozzuk meg, hogy egy neuronkészlet milyen gyakran aktiválódik, és átlagosan mennyire hasonlít azok átlagos aktivációs szintjére. Miért lehet számítási szempontból vonzó a terheléselosztás a neurális hálózatokban? Három ok jut eszembe:

Először is, a terheléselosztás növeli a hálózat kódolási kapacitását; azaz az egyedi ingerek száma, amelyek rögzített számú erőforrás (neuron) segítségével ábrázolhatók. Tegyük fel, hogy a szokásos képzés során a rejtett egységek bizonyos részét (mondjuk 50% -át) csak nem használják fel; vagyis soha nem vagy csak ritkán aktiválódnak. Ez az elpazarolt kapacitás csökkentené a hálózat által képviselt lehetséges minták számát, és szükségtelen paramétereket vezetne be, amelyek meghosszabbíthatják a képzést. Az idegsejtek terheléselosztásával elkerülhetők ezek a problémák, ha több rejtett egységet helyeznek üzembe. Az agyban az idegsejtek egyenlő kihasználása elősegíti az elosztott reprezentációkat is, amelyekben az egyes ingereket sok idegsejt képviseli, és mindegyik idegsejt részt vesz számos inger reprezentációjában (gyakran kombinatorikus kódnak hívják [26, 27]). Ez a tulajdonság különösen vonzó, ha az ilyen ábrázolások függetlenek a bemeneti statisztikáktól vagy a struktúrától.

Másodszor, a terheléselosztás javíthatja a finom szemléletű megkülönböztetést. Tegyük fel, hogy két rejtett egység van, amelyek hasonlóan aktiválódnak ugyanazokra a bemeneti ingerekre (pl. Kutyaképek). A képzési folyamat csak választhatja az egyiket, és kikapcsolhatja a másikat. De ha mindkét egységet alkalmazzák, akkor az ajtó nyitva marad a jövőbeni finom szemcsés megkülönböztetés előtt; például megkülönböztetve a kutyák alosztályait, például a chihuahuákat és a labradoodle-eket. Általánosságban, ha több csomópontot használnak egy inger megjelenítésére, akkor a csomópontok jobban megőrizhetik a minta finomabb részleteit, amelyek később szükség esetén a megkülönböztetés alapjául szolgálhatnak. Ehhez kapcsolódóan, ha egy neuronnak szigmoidális aktivációs funkciója van, a normalizálás az idegsejtet telítetlen állapotában tartja. Úgy gondolják, hogy ez segít az idegsejtnek maximálisan informatív és megkülönböztető képességben [28–32].

Harmadszor, a terheléselosztás szabályozóként szolgálhat, amelyet általában a mély hálózatokban használnak a súlyok nagyságának vagy az egységek aktivitási szintjének korlátozására. A szabályozók általában javítják az általánosítást és csökkentik a túlfeszültséget [33], és kifejezetten vagy hallgatólagosan megadhatók [34]. A mély tanulás során számos szabályozási formát alkalmaznak; például a Dropout [35], amelyben az idegsejtek véletlen hányada inaktívvá válik az edzés során; vagy súlyszabályozás, amelyben ℓ1 vagy ℓ2 büntetést alkalmaznak a veszteségfüggvényre annak korlátozására, hogy mekkora súlyú vektorokká váljon [36, 37]. Noha a szabályozás hatékony eszköz a robusztus modellek felépítéséhez, önmagában a szabályozás nem garantálja a homeosztatikus ábrázolások létrehozását.

Normalizációs módszerek négy térbeli skálán

Először a mesterséges és az idegi normalizálási stratégiák ismertetésével kezdjük, amelyek négy térbeli skálán fordulnak elő (1. ábra, 1. táblázat): egyetlen idegsejt aktivitásának normalizálása belső idegi tulajdonságokkal; az idegsejt szinaptikus súlyának normalizálása; egy neuronréteg normalizálása; és egy teljes neuronhálózat normalizálása.