Érzékelési veszteségek a valós idejű stílusátvitelhez és a szuper felbontáshoz

Arunava

2018. szeptember 8. · 5 perc olvasás

Ez a papír összefoglalása a papírról:
Érzékelési veszteségek a valós idejű stílusátvitelhez és a szuper felbontáshoz
szerző: Justin Johnson, Alexandre Alahi, Li Fei-Fei.
Papír: https://arxiv.org/pdf/1603.08155.pdf

Ez a cikk az észlelési veszteség függvények alkalmazását javasolja az előremenő hálózatok képtranszformációs feladatokra való képzéséhez, pixelenkénti veszteségfüggvények használata helyett.

Képpontonkénti veszteségfüggvények?
Két kép összehasonlítása az egyes pixelértékek alapján.
Tehát, ha két, észlelésileg egyforma, de akár egy pixel alapján különbözõ kép, akkor a pixelveszteség-függvények alapján nagyon különböznek egymástól.

Érzékelési veszteségfüggvények?
Két kép összehasonlítása az előképzett konvolúciós neurális hálózatok magas szintű reprezentációi alapján (képosztályozási feladatokra képzett, mondjuk az ImageNet adatkészlet) .

Két képátalakítási feladaton értékelik megközelítésüket:
(i) Stílustranszfer
(ii) Egy kép szuper felbontása

A stílusátvitelhez olyan továbbító hálózatokat képeznek, amelyek megpróbálják megoldani a Gatys és mtsai által javasolt optimalizálási problémát. 2015.

A szuperfeloldás szempontjából az érzékelési veszteségek felhasználásával kísérleteznek, és azt mutatják, hogy jobb eredményeket ér el, mint pixelenként veszteségfüggvények használata.

A javasolt modellarchitektúra két komponensből áll:
i. Képtranszformációs hálózat (f_)
ii. Veszteséghálózat (Φ)

Képtranszformációs hálózat

Az Image Transformation Network egy mély maradék konvolúciós neurális hálózat, amely kiképzett a Gatys által javasolt optimalizálási probléma megoldására.

Adott bemeneti képet (x) ez a hálózat átalakítja kimeneti képpé (ŷ).

Ennek a hálózatnak a súlyát (W) a kimeneti kép (ŷ) alapján kiszámított veszteségek felhasználásával kell megismerni, és összehasonlítani kell a következőkkel:
- a stíluskép (y_) és a tartalmi kép (y_) ábrázolása, stílusátadás esetén
- csak az y_ tartalomkép, szuper felbontás esetén.

A képtranszformációs hálózatot a sztochasztikus gradiens süllyedés segítségével képzik ki olyan súlyok (W) megszerzésére, amelyek minimalizálják az összes veszteségfüggvény súlyozott összegét.

Veszteséghálózat

A veszteséghálózat (Φ) egy előre előkészített VGG16 az ImageNet adatkészleten.

A veszteség hálózatot arra használják, hogy tartalom- és stílusábrázolásokat kapjanak a tartalmi és stílusképekből:
(i) A tartalomábrázolás a „relu3_3” rétegből származik. [2. ábra]
(ii) A stílusábrázolások a „relu1_2”, a „relu2_2”, a „relu3_3” és a „relu4_3” rétegből származnak. [2. ábra]

Ezeket az ábrázolásokat a veszteségek két típusának meghatározására használják:

Funkció rekonstrukció veszteség
A kimeneti képpel (ŷ) és a „relu3_3” réteg tartalomábrázolásával, és a képen a következő veszteségfüggvény használatával