Az agy mögött az AI: Hogyan befolyásolták Pavlov kutyái és fogyókúrás tippjei a megerősítéstanulást

AI-rajongó vagyok, és szeretek lépést tartani…

Olvassa el a következőt

Hogyan tudja India újragondolni egész egészségügyi rendszerét a blokklánccal

A mesterséges intelligencia lényegében számos pszichológiai fogalmat hajtott végre digitális formában. Megfelelően az emberi intelligencia egyik legnagyobb része az a képesség, hogy tanuljanak és javuljanak ugyanazon feladat korábbi próbálkozásain.

Bár ezt kiterjesztették az AI-re, mint gépi tanulásra, létezik egy speciális típusú ML, amely jelentős mértékben kölcsönöz a pszichológiától. A megerősítő tanulás a kondicionálás fogalmán alapszik a pszichológiában, és egyedülálló módon alkalmazza a megbízható tanulás megkönnyítésére.

Mi a kondicionálás?

A „kondicionálás” olyan általános kifejezés, amelyet olyan jelenség leírására használnak, ahol a korábban nem összefüggő ingert és választ a tanulás kapcsolja össze. A kondicionálás egyik legkorábbi és leghíresebb típusa a klasszikus kondicionálás, más néven pavlovi kondicionálás.

Klasszikus kondicionálás:

Először Ivan Pavlov orosz fiziológus fedezte fel, ez a kondicionálási módszer arra összpontosít, hogy egy semleges ingert párosítson egy biológiailag erős inger válaszával. Ez Pavlov kutyáinak példáján látható.

A fiziológus akkor fedezte fel ezt a jelenséget, amikor kutyákon tanulmányozta az emésztést. Amikor az ételt bevitték, a kutyák nyálasak voltak; akaratlan biológiai reakció az ételre. Ugyanakkor kísérletezett azzal, hogy minden alkalommal harangot csengjen, amikor az ételt bevitték, így kapcsolatot teremtve a harang hangja és az étel között.

Ez azt eredményezte, hogy a kutyák nyálasak voltak, valahányszor meghallották a harangot, és így „kondicionálták” őket, hogy hasonló módon reagáljanak, mint egy feltételes ingerre (ételre), kivéve, ha az inger jelen van. Így „megtudták”, hogy a csengő hangja azt jelenti, hogy étel jön.

Manapság a klasszikus kondicionálás alkalmazást talált az étrend-órás kütyükben. Ezek a modulok a felhasználó számára enyhe áramütést okoznak, ami kedvezőtlen magatartást tanúsít, általában falatozást. Kapcsolat alakul ki az áramütés kellemetlen ingere között az evés reakciója felé, ami végül csökkenti a viselő étkezési szokásait.

Operáns kondicionálás:

A kondicionálás másik típusa az operáns kondicionálás, amely a klasszikus kondicionálási elvek alapján épül fel és inspirálta az RL-t. BF Skinner pszichológus úttörőjeként ezt olyan módszernek tekintették, amely megmagyarázza a komplexebb emberi viselkedéseket, amelyek nem magyarázhatók a klasszikus kondicionálással.

Az operáns kondicionálás alaposabban megvizsgálja a kondicionálás folyamatát, és módot kínál arra, hogy az emberi viselkedést cselekedetek elkövetésével befolyásolja. A folyamat 3 fő alapelvet tartalmaz; megerősítés, büntetés és kihalás.

Az operáns kondicionálás azon az elgondoláson alapszik, hogy a pozitív viselkedés ösztönzése és a negatív viselkedés elrettentése pozitív hatással lehet a pszichére. A pozitív magatartás ösztönzése a környezet kedvező változásain keresztül megerősítésnek, míg a negatív viselkedés kedvezőtlen változásokkal való elrettentése büntetésnek számít.

A kihalás az inger és a válasz közötti kapcsolat megszüntetése hosszú büntetés vagy megerősítés után. Ennek eredményeként a viselkedés teljesen megszűnik.

A megerősítés és annak alkategóriái képezik az alapját annak, ami a megerősítő tanulás fogalmát alkotja.

Hogyan valósul meg a pszichológia az RL-ben

A megerősítés és a büntetés helyett az RL kétféle megerősítést alkalmaz. Ezek pozitív megerősítés és negatív megerősítés, és a megerősítő tanulási munkafolyamat jutalmazási rendszereiben láthatók. Pozitív megerősítés az, amikor jutalmat kapnak a pozitív viselkedés ösztönzésére. Negatív megerősítés az, amikor a viselkedés ösztönzésére büntetést vesznek el.

Bár az RL-ben nem ez a fekete-fehér, ezeket a fogalmakat gradiens formában használják annak biztosítására, hogy a rendszer folytassa az önfejlesztés útját. A hatékonyabb megoldások nagyobb mennyiségű jutalmat kapnak, míg a kevésbé hatékony megoldások alacsonyabb jutalommal járnak.

A TikTok Fiaskó mögött: Újabb lövés az amerikai műszaki óriásoktól a felhő dominanciáján

Ez olyan feltételeket hoz létre az algoritmusban, hogy a hatékonyabb megoldások nagyobb eséllyel jutalmazzák meg a jutalmakat, ami ahhoz vezet, hogy az ügynök megpróbálja kiválasztani azt a megoldást, amely a legtöbb jutalmat adja.

A kihalás fogalma is alkalmazható ebben a megközelítésben, mivel a megoldáshoz vezető régebbi, kevésbé hatékony utakat hatékonyan gyomlálják ki a megerősítés hiánya miatt.

Kondicionálás a megerősítő tanulásban

Az RL a tanuláshoz használt megerősítés fogalmának közvetlen ábrázolása. Egy tipikus RL munkafolyamatban az ügynök (algoritmus) a környezetben látja el kijelölt funkcióját. Az eredményt ezután továbbítják egy tolmácsnak, amely dekódolja mind a környezet állapotát, mind az algoritmusnak járó jutalmat.

A rendszernek juttatott jutalom attól függ, hogy milyen sikerességgel vagy hatékonysággal oldják meg a problémát. Ezért az algoritmus változó hatékonysággal próbálja megoldani a problémát. Az első iteráció során a rendszer valószínűleg a legkevésbé hatékony megoldással áll elő.

Mivel azonban hatékonyabb megoldásokat találnak és erősítenek a rendszer jutalmának felajánlásával, maga a megoldás is hatékonyabbá válik. Ezután létrehoz egy öntanulási algoritmust, amely javítja önmagát a tolmács által kapott visszajelzések felhasználásával.

A megerősítő tanulás különbözik a többi gépi tanulási módszertantól, mivel nem kell megmondani, hogyan lehet pontosan megoldani a problémát. Pszichológiai módszereket alkalmaz az emberi tanulási folyamatok szimulálására.

Ez csak egy a sok pszichológiai fogalom közül, amelyeket az AI-ben alkalmaznak, és elfogadható módon a bonyolultabb elméleteket alkalmazhatjuk a gépekre. Ennélfogva az igazi mesterséges intelligencia felemelkedése az emberi tudat mélyebb, pszichológiai megértéséből származhat.

Ha szerette ezt a történetet, csatlakozzon a távirati közösségünkhöz.

Ezenkívül írhat nekünk, és egyike lehet az 500+ szakértőnek, akik hozzájárultak az AIM történeteihez. Ossza meg itt jelöléseit.

AI-rajongó vagyok, és szeretek lépést tartani az űr legújabb eseményeivel. Szeretem a videojátékokat és a pizzákat.