SLTC hírlevél, 2011. október Új átírási rendszer, amely automatikus beszédfelismerést (ASR) használ

SLTC hírlevél, 2011. október

október

Áttekintés

A japán parlament (diéta) 1890-es megalakulása óta száz év alatt kézírásos gyorsírásból készültek a szó szerinti jegyzőkönyvek. A század elején azonban a kormány beszüntette a szűkösök felvételét, és alternatív módszereket vizsgált (hasonló változások történtek sok országban az elmúlt évtizedekben). A képviselőház az ASR-t választotta az új rendszerhez [1]. A rendszert 2010-ben telepítették és tesztelték, és 2011 áprilisától hivatalosan is működött. Ez az első automatikus átírási rendszer, amelyet a nemzeti parlamentek telepítettek, azzal az eltéréssel, hogy online televíziós feliratozás történt a cseh parlament számára [2].

Az új rendszer kezeli az összes plenáris ülést és bizottsági ülést. A beszédet az ülésterem mikrofonjai rögzítik. Külön csatornákat használnak az interpellátorok és a miniszterek számára. A beszélőtől független ASR-rendszer létrehoz egy kezdeti tervezetet, amelyet a parlamenti újságírók kijavítanak. Nagyjából a rendszer felismerési hibaaránya 10% körül mozog, és a korrigálandó diszklúziók és köznyelvi kifejezések is 10% -ot tesznek ki. Így az újságírók továbbra is fontos szerepet játszanak.

Műszaki kihívások és innováció

Az ASR rendszerre vonatkozó követelmények a következők. Az első a nagy pontosság; 90% fölött előnyös. Ez könnyen elérhető a plenáris üléseken, de nehéz az interaktív, spontán és gyakran heves bizottsági üléseken. A második követelmény a gyors megfordulás. A Házban az újságíróknak 5 perces szakaszokban rendeltek átírási beszédet. Az ASR-t szinte valós időben kell végrehajtani, így az újságírók még a munkamenet alatt is azonnal megkezdhetik a munkát. A harmadik kérdés a ház standard átiratának betartása. Ez garantálható, ha a lexikon és a nyelvi modell felépítéséhez csak a parlamenti ülések korábbi rekordjait használjuk fel.

A nagy teljesítmény elérése érdekében az akusztikai és nyelvi modelleket a parlamenti beszédhez kell igazítani; vagyis ki kell képezni őket az egyező adatok nagy mennyiségével. Szerencsére nagy mennyiségű adat áll rendelkezésre a parlamenti ülésekről. Hatalmas archívum van a hivatalos értekezlet-nyilvántartásokról, szövegesen, évente 15 millió szóval, ami összehasonlítható az újságokkal. Az értekezleti beszédekről is van hatalmas archívum, amely évente 1200 órát jelent. A hivatalos értekezlet-nyilvántartások azonban eltérnek a tényleges megszólalásoktól, az újságírók szerkesztési folyamata miatt. Ennek több oka is van: különbségek a beszélt stílus és az írott stílus között, a diszklúziós jelenségek, például a töltőanyagok és a javítások, a redundancia, például a beszédjelzők, és a nyelvtani korrekciók. Elemzésünk során a japánnak nagyobb eltérése és redundanciája van, de kevesebb a nyelvtani korrekciója, mert a japán nyelvnek viszonylag szabad a nyelvtani szerkezete.

Ezen okokból ki kell építenünk a parlamenti ülések korpuszát, amely a hivatalos nyilvántartáshoz igazodva tartalmazza a kimondások hű átiratát, beleértve a kitöltőket is. Előkészítettünk egy ilyen korpuszt, amelynek nagysága 200 óra volt beszédben vagy 2,4 millió szó szövegben. A korpusz létfontosságú a kielégítő teljesítmény érdekében, de nagyon költséges. Sőt, frissíteni kell; különben az előadás idővel leromlik.

A parlamenti ülések hatalmas archívumának hatékonyabb kihasználása érdekében egy új képzési rendszert vizsgáltunk meg, összpontosítva a hivatalos ülésnapló és a hűséges átirat közötti különbségeket [1] [3]. Bár a szavakban 13% -kal vannak eltérések, 93% -uk egyszerű szerkesztés, például a kitöltések törlése és egy szó javítása. Ezeket számítási módszerrel modellezhetjük a statisztikai gépi fordítás (SMT) sémájával. A különbség statisztikai modelljével megjósolhatjuk, hogy mi hangzik el a hivatalos nyilvántartásokból. Ha az SMT modellt a múltbeli parlamenti ülések nyilvántartásaiban (200 millió szó szövegben 10 év alatt) alkalmazzuk, pontos nyelvi modell jön létre. Sőt, az audioadatok és az egyes hangsugárzók körére jósolt modellek összehangolásával rekonstruálhatjuk a valójában elhangzottakat. Ez az akusztikai modell hatékony, enyhén felügyelt képzését eredményezi, kihasználva 500 óra beszédet, amelyet nem írnak át hűen. Ennek eredményeként pontosan megalkothattuk a spontán beszéd modelljeit a Parlamentben, és ez a modell idővel kialakul, tükrözve a parlamenti képviselők változását és a tárgyalt témákat.

A rendszer telepítése és értékelése

Ezeket a kiotói egyetem által kifejlesztett akusztikai és nyelvi modelleket beépítették az NTT Corporation felismerő motorjába vagy dekódolójába [4], amely a WFST (Weighted Finite State Transducers) gyors, menet közbeni összetételén alapul.

Az ASR rendszer kiértékelését a rendszer tavalyi bevezetése óta végezzük. A karakterhelyesség által meghatározott pontosság a hivatalos nyilvántartáshoz képest 89,4% a 2010-ben és 2011-ben lefolytatott 108 ülésen. Ha plenáris ülésekre korlátozódik, meghaladja a 95% -ot. Egyetlen találkozó pontossága sem volt kisebb, mint 85%. A feldolgozási sebesség valós idejű tényezőben 0,5, ami azt jelenti, hogy egy 5 perces szakaszhoz körülbelül 2,5 perc szükséges. A rendszer automatikusan jegyzetelheti és eltávolíthatja a töltőanyagokat, de a többi szerkesztés automatizálása még mindig folyamatban van.

Az újságírók által használt utószerkesztő létfontosságú az ASR hibák hatékony kijavításához és az átiratok tisztításához. Az újságírók által tervezett képernyő-szerkesztő, amely hasonló a szövegszerkesztő felülethez. A szerkesztő egyszerű hivatkozást biztosít az eredeti beszédre és videóra, idő, kimondás és karakter szerint. Felgyorsíthatja és lecsökkentheti a beszéd visszajátszását. Az ASR-alapú rendszer mellékhatása az, hogy a szöveg, a beszéd és a videó a hangszórók és a kimondás által összehangolt és hiperhivatkozású. Ez lehetővé teszi a multimédiás archívumok hatékony keresését és visszakeresését.

A rendszer karbantartása érdekében folyamatosan figyeljük az ASR pontosságát és frissítjük az ASR modelleket. Pontosabban, a lexikon és a nyelvi modell évente egyszer frissül, hogy új szavakat és témákat tartalmazzon. Ne feledje, hogy új szavakat az újságírók bármikor felvehetnek. Az akusztikus modell a kabinet vagy a képviselők cseréje után frissül, amelyre általában az általános választások után kerül sor. Ne feledje, hogy ezek a frissítések félig automatizálhatók kézi átírás nélkül, enyhén felügyelt képzési rendszerünkben. Arra számítunk, hogy a rendszer javulni fog, vagy tovább fejlődik, ha több adat gyűlik össze.

Hivatkozások

  1. T.Kawahara. A parlamenti ülések és előadások automatikus átírása - fenntartható megközelítés és valós rendszerértékelések -. A Proc. Nemzetközi Sympo. Kínai beszélt nyelv feldolgozása (ISCSLP), pp. 1–6 (fő beszéd), 2010.
    http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5684907
  2. Filip Jurcicek. Beszédfelismerés élő TV feliratokhoz. SLTC Hírlevél, 2009. április.
    http://www.signalprocessingsociety.org/technical-comm Communities/list/sl-tc/spl-nl/2009-04/tv-captioning/
  3. Y.Akita és T.Kahahara. A nyelv és a kiejtési modellek statisztikai átalakítása a spontán beszédfelismeréshez. IEEE Trans. Audio, Speech & Language Process., 18. kötet, 6. sz., 1539-1549, 2010.
    http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5340564
  4. T.Hori és A.Nakamura. Általános, gyors on-the-fly kompozíciós algoritmus a WFST-alapú beszédfelismeréshez. A Proc. Interspeech, 557-560, 2005.
  5. Intersteno IPRS webhely
    http://www.intersteno.org/

Tatsuya Kawahara a Kiotói Egyetem Informatikai Doktori Iskolájának professzora. E-mail címe: kawahara [at] i [dot] kyoto-u [dot] ac [dot] jp.