Ez a súlycsökkenés nevű dolog

Dipam Vasani

2019. április 29. · 4 perc olvasás

Bevezetés

Előző cikkemben megemlítettem, hogy az adatok bővítése segít a mély tanulási modellek általánosításában. Ez a dolgok adatoldalán állt. Mi van a dolgok modell oldalával? Mit tehetünk modelljeink edzése közben, ez segít még jobban általánosítani.

A modell paraméterei

Kezdjük azzal, hogy megnézzük a fenti képet. Látjuk, hogy van egy csomó adatpontunk, és hogy nem tudjuk őket jól illeszteni egy egyenes vonallal. Ezért erre egy 2. fokú polinomot használunk. Azt is észrevesszük, hogy ha egy adott ponton túl növeljük a polinom mértékét, akkor modellünk túl bonyolulttá válik és túlterhelni.

Ez azt jelenti, hogy a túlillesztés megakadályozása érdekében nem szabad hagynunk, hogy modelljeink túlságosan összetetté váljanak. Sajnos ez a mély tanulás során tévhithez vezetett, miszerint nem szabad sok paramétert használnunk (annak érdekében, hogy modelljeink ne legyenek túl bonyolultak).

A súlyromlás eredete

Először is, a valós adatok nem lesznek olyan egyszerűek, mint a fentiek. A valós adatok összetettek, és összetett problémák megoldásához összetett megoldásokra van szükségünk.

A kevesebb paraméter birtoklása csak az egyik módja annak, hogy megakadályozzuk modellünk túlságosan összetettebbé válását. De valójában nagyon korlátozó stratégia. A több paraméter több interakciót jelent idegi hálózatunk különböző részei között. És több interakció több nem-linearitást jelent. Ezek a nem-linearitások segítenek összetett problémák megoldásában.

Nem akarjuk azonban, hogy ezek az interakciók kiszabaduljanak. Ennélfogva mi lenne, ha megbüntetnénk az összetettséget. Még mindig sok paramétert fogunk használni, de megakadályozzuk, hogy modellünk túlságosan összetett legyen. Így merült fel a súlycsökkenés gondolata.

A súlycsökkenést láthattuk az együttműködésen alapuló szűrésről szóló cikkemben. Valójában a fastai könyvtár minden tanulójának van egy súlycsökkenésnek nevezett paramétere.

Ezt a dolgot súlycsökkenésnek hívják

A bonyolultság megbüntetésének egyik módja az lenne, ha minden paraméterünket (súlyunkat) hozzáadnánk veszteségfüggvényünkhöz. Nos, ez nem egészen fog működni, mert egyes paraméterek pozitívak, mások negatívak. Tehát mi van, ha az összes paraméter négyzetét hozzáadjuk a veszteségfüggvényünkhöz. Megtehetjük, de ennek eredményeként a veszteségünk olyan hatalmas lehet, hogy a legjobb modell az lenne, ha az összes paramétert 0-ra állítanánk.

Ennek megakadályozása érdekében a négyzetek összegét megszorozzuk egy másik kisebb számmal. Ezt a számot nevezzük súlycsökkenésnek vagy wd.

Veszteségfüggvényünk most a következőképpen néz ki:

Amikor a súlyokat gradiens ereszkedéssel frissítjük, a következőket tesszük:

Mivel a veszteségfüggvényünkben 2 tag van, a wr.t w második kifejezés deriváltja a következő lenne:

Ezentúl nem csak a tanulási sebesség * gradienst vonjuk ki a súlyokból, hanem 2 * wd * w-t is. Az eredeti tömegből levonjuk a tömeg konstansszorosát. Ezért hívják súlycsökkenésnek.

A wd értékének eldöntése

Általában a wd = 0,1 elég jól működik. A fastai emberek azonban e tekintetben kissé konzervatívak voltak. Ezért a súlycsökkenés alapértelmezett értéke a fastai-ban valójában 0,01 .

Azért válassza ezt az értéket, mert ha túl sok a súlyromlása, akkor bármennyire is edz, a modell soha nem elég jól, míg ha túl kevés a súlyromlás, akkor is jól edzhet, csak álljon meg egy kicsit korán.

Bemutattam ezt a koncepciót ebben a jupyter notebookban.

Ez egy többosztályos (és nem több címkével ellátott) osztályozási probléma, ahol megpróbáljuk megjósolni a növényi palánták osztályát.

A súlycsökkenéshez 3 értéket használtam, az alapértelmezett 0,01-et, a legjobb 0,1-es értéket és nagy 10-es értéket. Az első esetben modellünk több korszakot igényel. A második esetben ez működik a legjobban, és a végső esetben soha nem illik jól még 10 korszak után sem. (lásd a különbséget a fekete-fehér képzés és az érvényesítés elvesztése miatt.)

Ennyi lesz a cikknél. Itt megismerhet más szabályozási technikákat.

Ha többet szeretne megtudni a mély tanulásról, nézze meg ugyanezen cikk-sorozatomat: