TAR alkalmazhatóság az ázsiai és többnyelvű adatkészletekre FRONTEO
TAR alkalmazhatóság az ázsiai és többnyelvű adatkészletekre
Ahogy nő az Ázsiából származó adatokkal rendelkező határokon átnyúló jogi ügyek száma, a jogi csoportok egyre inkább a technológiával támogatott felülvizsgálatot (TAR), más néven prediktív kódolást keresik, hogy korai, költséges és gyakran hibára hajlamos vizsgálataikat automatizálják. dokumentum-felülvizsgálatok a gyártáshoz és egyéb kritikus esetekhez.
Ha az ESI-tartalom kínai, japán és koreai (CJK) nyelveket tartalmaz, a prediktív kódoló vegyületek használatának bonyolultsága. A kihívás nem a nyelv megértése; a legtöbb technológia nem próbálja meg úgy feldolgozni a nyelvet, mint az ember. Az alapvető kihívások a technológiai. Sok kódolást és fájlformátumot még mindig rosszul dolgoznak fel a hagyományos amerikai eszközkészletek, a saját szoftverek még mindig bővelkednek, és sok TAR-megoldás még mindig „lefordít”, mielőtt indexelne és kategorizálna. Az alapvető technikai kihívások túlmutatnak a nyelvi és kulturális összetettségen, de ezek egy másik nap témái.
Korábbi bejegyzéseinkben kollégáimmal megbeszéltük az ázsiai és többnyelvű adathalmazokat tartalmazó ESI-tartalmak gyűjtését, feldolgozását és keresését. De mi van a TAR-val? A TAR-eszközök többnyelvű esetekben működnek, és különösen a CJK-val?
Íme néhány dolog, amelyet a jogi csapatoknak tudnia kell:
- A CJK-adatokat olyan szoftverrel kell feldolgozni, amely a CJK-adatok feldolgozásában jártas és tapasztalattal rendelkező emberek számára pontos és teljes kibontáshoz szükséges.
A TAR-beszélgetések során az emberek gyakran a „szemét be, szemét ki” kifejezést használják. Ez a kifejezés szinte általánosan utal a TAR rendszer kiképzéséhez használt emberi kódolás következetességére és helyességére. A kifejezés még alapvetően alkalmazható, ha a TAR megkezdése előtti adatfeldolgozásra utal. A TAR hatékonyságát elkerülhetetlenül korlátozza a feldolgozott adatok pontossága és teljessége. Másképpen fogalmazva, a rendelkezésre álló legtökéletesebb tárgyi szakértő nem tudja hatékonyan kiképezni a hiányos vagy pontatlan adatokra támaszkodó TAR-rendszert.
A problémák feldolgozása különböző formákat ölthet, de néhány egyszerű lépés segít elkerülni a TAR-eredmények károsodását. A CJK nem hatékony feldolgozása hibás szöveget generálhat, hiányozhatnak a metaadatok, vagy előfordulhat, hogy a feldolgozó eszköz egyszerűen nem ismeri fel a fájlt, és helytelen hibákat dob el. Az esetcsapatok néhány egyszerű lépéssel csökkenthetik a TAR-eredmények károsodásának kockázatát. Először ellenőrizze, hogy a használt feldolgozó eszköz támogatja-e az összegyűjtött fájl- és kódolási formátumokat. Az ügy technológiai csapatának képesnek kell lennie arra, hogy megerősítse, hogy szoftverük támogatja az adatkészletet. A támogatott formátumokat általában a szoftverszolgáltatók teszik közzé, és elérhetők. Másodszor, dolgozzon egy technológiai csapattal, amely tudja, mire számíthat. Egy adott fájlformátumban új technológiai csapat nem fogja tudni, hogy milyen metaadatoknak kell kinyerhetők legyenek, hogyan vonják ki ezeket az adatokat, vagy hiányoznak-e a rendszerből legfontosabb információk. A tapasztalatokat és a szakértelmet nehéz pótolni, ha egy ügycsoport új kihívást jelent, például a többnyelvű adatkezelést.
Megjegyzés: Egy korábbi bejegyzés a feldolgozásig vezető témákat és a kereséshez történő indexeléssel foglalkozik.
- A rendelkezésre álló TAR megoldások eltérően kezelik a többnyelvű adathalmazokat.
Nem minden információ-visszakeresési és kategorizálási modell jön létre egyenlően. Az, hogy az alapul szolgáló algoritmus az adott rendszerben hogyan gyűjt információkat a dokumentumokról és kategorizálja azokat, jelentősen befolyásolhatja a TAR-erőfeszítések végső hatékonyságát. Egyes rendszerek például „súlyokat” rendelnek az egyes dokumentumokon belüli fogalmakhoz és a teljes dokumentumpopulációhoz. A nem angol szavak lehetnek alulsúlyozottak (kevésbé befolyásolják a kategorizálást) egy modellben, ha a nyelvet tartalmazó dokumentumok általános elterjedtsége alacsony. Fontos megérteni - legalábbis fogalmilag -, hogy a választott rendszer hogyan azonosítja a fogalmakat és kategorizálja az adatait.
A technológiai szolgáltatóval folytatott korai és közvetlen megbeszélések hosszú távon segítenek elkerülni a gyenge eredményeket (és az ezeket kísérő megnövekedett költségeket).
- A TAR ugyanazokat az előnyöket kínálja egy- és többnyelvű adatkészletek esetén, és a CAL különösen előnyös lehet.
A legtöbb nyugati TAR eszköz „tanul” a képzett mintákból, amelyet hozzáértő ügyvédek vagy tantárgyi szakértők szolgáltattak. Ezután az eszköz morfológiai elemzéssel és statisztikai algoritmusokkal keresi a hasonló dokumentumokat a fennmaradó dokumentumgyűjteményben. Ezek az általános igazságok a többnyelvű adatkészletekre is érvényesek.
A folyamatos aktív tanulás (CAL, más néven TAR 2.0) modellek támogatják a legtöbb legális csapat munkáját. A csapatok az ismert információkat - az ügyfelektől szerzett vagy más módon - felhasználhatják a kulcsdokumentumok korai megtalálásához és a rendszer szerves továbbképzéséhez. Ezek a rendszerek jellemzően elég alakíthatók ahhoz, hogy támogassák a párhuzamos (vagy kompenzált) képzést bizonyos kérdésekben vagy meghatározott nyelveken.
Különösen értékes a határokon átnyúló esetekben a párhuzamos munkafolyamatok rugalmassága, miközben a TAR-eredmények folyamatosan javulnak. A különböző jogi kérdésekkel kapcsolatos adatok földrajzilag diszkrétek lehetnek, és az érintett szakértőknek párhuzamosan kell dolgozniuk. Ez nem jelent kihívást a legtöbb CAL rendszerben. Egy ügycsoportnak lehetnek különböző témájú szakértői, akik időbeli zónákon átívelnek különböző nyelvtudással. Szintén általában nem probléma. A képzési modell rugalmas jellege jót tesz azoknak a csapatoknak, akiknek földrajzi elhelyezkedése, nyelvtudása vagy tantárgyi ismerete eltér.
Összegezve:
A TAR nagyon ígéretes. Ma sok összefüggésben sikeresen alkalmazzák, alkalmazhatósága nem ismer földrajzi határt. A TAR-rendszerek kiküszöbölik az alapvető kihívásokat, például az emberi következetlenséget, az áteresztőképesség szűk keresztmetszetét és a manuális felülvizsgálattal általában járó csillagászati költségeket. Megfelelően megvalósítva a TAR lehetővé teszi a jogi csoportok számára, hogy a perstratégiára összpontosítsanak, korai hozzáférést biztosít a legfontosabb dokumentumokhoz, és segít a csapatoknak olyan információk megszerzésében, amelyek egyébként elérhetetlenek vagy elhomályosíthatók lennének. Ezek az előnyök egyformán érvényesek a CJK-t vagy más nyelveket érintő esetekben - ha a technológiai csapat megérti a kihívásokat és rendelkezik szakértelemmel azok kezeléséhez.
A szolgáltatóorientált kultúra vezérli, amely továbbra is magasabb és fényesebb célokat tűz ki az élvonalbeli technológia és a legjobb piaci szolgáltatások kifejlesztésére, hatalmas értéket teremtve ügyfeleink, alkalmazottaink, fogyasztóink és részvényeseink számára.
FRONTEO USA, Inc. (székhely) 777 Third Avenue, 17. emelet, New York, NY 10017 Iroda: (866) 803.7668 Fax: (866) 488.1032
A szolgáltatóorientált kultúra vezérli, amely továbbra is magasabb és fényesebb célokat tűz ki az élvonalbeli technológia és a legjobb piaci szolgáltatások kifejlesztésére, hatalmas értéket teremtve ügyfeleink, alkalmazottaink, fogyasztóink és részvényeseink számára.
- Hallgatói nyári tevékenységi jelentések, 2018; Friss hírek; Hírek; Események; Belső-ázsiai és uráli nemzetiség
- Projekt elindítása Az Egészséges, Biztonságos Gyermekek Országos Központja
- Az alegység kölcsönhatásai és viszonyuk a nyúl vázizomzatának alloszterikus tulajdonságaihoz
- Haditengerészeti testösszetétel értékelése
- Egy Sheltie tulajdonosa