Dmitrij Uljanov

által Dmitrij Uljanov és Vadim Lebedev

dmitrij

Bemutatjuk Leon Gatys és mtsai textúrájának szintézisét és stílusátviteli módszerét. hanghoz. Három keretrendszerhez ugyanazt a kódot dolgoztuk ki (nos, Moszkvában hideg van), válassza ki a kedvencét:

Hogyan alkalmazza a neurális stílust a hangra?

A képstílus-átviteli algoritmus módosítása meglehetősen egyszerű.

  • A nyers hangot a Short Time Fourier Transform segítségével spektrogrammává alakítják. A spektrogram egy 1D jel 2D-s ábrázolása, így (szinte) képként kezelhető. Valójában jobb a spektrogramra gondolni, mint az 1xT képre, F csatornákkal.
  • Ezután szükségünk van egy hálózatra. Nem használhatjuk csak a VGG-19-et, mivel a 3x3 konvolúciók nem alkalmasak lényegében 1D problémánkra, amelyhez biztosan 1D konvolúciókat szeretnénk használni. Ezután két lehetőség van: használjon előzetesen előkészített hálózatot, vagy használjon teljesen véletlenszerű súlyokat. A Torch megvalósításában megpróbáltam különféle hálókat betanítani, de úgy tűnik, hogy hasonlóan teljesítenek. Mivel [1,2,3] Vadim azt is megállapította, hogy a hálózat minősége nem fontos a textúra szintéziséhez. Véletlen tömegű hálók valósulnak meg mind a három keretben. Érdekes módon az általunk használt hálózatnak csak egy rétege van 4096 szűrővel.
  • És végül rekonstruálnunk kell egy jelet a spektrogramjából. Az inverzió legegyszerűbb módja a Griffin-Lim algoritmus használata.

A textúra szintézise

A tartalom súlyának nullára állításával szintetizálhatjuk a textúrákat.