Miért kéne kevernünk az adatokat egy ideghálózat edzése közben?
Egy ideghálózat mini-batch edzésén hallottam, hogy fontos gyakorlat az edzésadatok keverése minden korszak előtt. Meg tudja valaki magyarázni, miért segít az egyes korszakok keverése?
A google keresésből a következő válaszokat találtam:
- ez segíti az edzés gyors konvergálását
- megakadályozza a torzítás során a torzítást
- megakadályozza, hogy a modell megtanulja a képzés sorrendjét
De nehezen értem meg, miért okozza ezeknek a hatásoknak a véletlenszerű keverés. Tud-e bárki intuitív magyarázatot adni?
6 válasz 6
Megjegyzés: ebben a válaszban az edzésvesztés minimalizálására utalok, és nem tárgyalok olyan leállítási kritériumokat, mint az érvényesítési veszteség. A megállási kritériumok megválasztása nem befolyásolja az alábbiakban ismertetett folyamatot/koncepciókat.
A neurális hálózat kiképzésének folyamata az, hogy megtalálja a $ ℒ_X (W) $ veszteségfüggvény minimális értékét, ahol $ W $ az idegsejtek közötti súlymátrixot (vagy több mátrixot) képviseli, a $ X $ pedig a képzési adatkészletet. A $ X $ alindexet használom annak jelzésére, hogy a $ ℒ $ minimalizálásunk csak a $ W $ súlyok felett történik (vagyis olyan $ W $ -ot keresünk, hogy a $ is $ minimalizálva legyen), míg a $ X $ fix.
Most, ha feltételezzük, hogy $ P $ elemek vannak $ W $ -ban (vagyis vannak $ P $ súlyok a hálózatban), a $ ℒ $ egy felület egy $ P + 1 $ -dimenziós térben. Vizuális analóg létrehozásához képzeljük el, hogy csak két idegsejt-súlyunk van ($ P = 2 $). Ekkor a $ ℒ $ geometriai értelmezése egyszerű: ez egy felület egy háromdimenziós térben. Ez abból adódik, hogy a $ W $ bármely adott mátrix esetén a veszteségfüggvény kiértékelhető a $ X $ értéken, és ez az érték a felület magasságává válik.
De van a nem konvexitás problémája; az általam leírt felületnek számos helyi minimumja lesz, ezért a gradiens süllyedési algoritmusok hajlamosak "elakadni" ezekben a minimumokban, miközben egy mélyebb/alacsonyabb/jobb megoldás lehet a közelben. Ez valószínűleg akkor következik be, ha a $ X $ nem változik az összes edzés iterációnál, mert a felület rögzítve van egy adott $ X $ értéknél; minden jellemzője statikus, beleértve a különféle minimumokat is.
- Az alacsony gravitációs edzőgép csökkenti az ízületi, izomhatásokat, tanulmány szerint - ScienceDaily
- Egészséges harapnivalók, amelyeket meg lehet ragadni a Fly Food Network-en Egészséges étkezési receptek, ötletek és Élelmiszer-hírek Étel
- Halkonzervek Egészséges Élelmiszer Hálózat Egészséges Étkezés Receptek, Ötletek és Élelmiszer Hírek Élelmiszer Hálózat
- Lsd fogyás Reddit (rangsor) CEOS adatok s
- Kombucha és Kefir The Next Superfoods Joe Cross