Térszerkezet, a paraméterek nemlinearitása és intelligens algoritmusok a pedotranszfer funkciók felépítésében nagy léptékű talaj örökségi adatokból
Tárgyak
Absztrakt
Bevezetés
A talajinformációs rendszereket egyre inkább használják a kritikus zónák folyamatainak és az ökoszisztéma-szolgáltatások ökoszisztéma-szintű megértésének fejlesztésére. Újabban nagyobb szerepet tulajdonítanak a nagyméretű talaj-adatoknak az élelmezésbiztonság, a vízgazdálkodás és más egészségügyi veszélyek fenntartható fejlődési céljainak megvalósításában 3. Átfogó adatbázisokat használtak a pedotranszfer funkciók (PTF) kidolgozásához olyan kritikus talajparaméterekhez, mint a talaj hidraulikus tulajdonságai (UNSODA 4, HYPRES 5), a talaj szerves szén (SOC) tartalma (LUCAS 6) és a geokémiai paraméterek (GEMAS 7). Hasonlóképpen, a talajfelmérés erőfeszítései számos országban a régi talaj-adatbázisok nagy tárházainak létrehozásához vezettek. A közelmúltban 1749 országra kiterjedő, 196 498 földrajzi hivatkozással rendelkező hely régi adatait gyűjtötték össze, hogy globális talajinformációs rendszert hozzanak létre a Globális Talaj Partnerség 8 égisze alatt. Érdekes, hogy a régi talajra vonatkozó adatok nagy része továbbra is nagyrészt kihasználatlan 9 .
Bár a PTF-ek vonzóak, megbízhatóságuk a 10,11 bemeneti paraméterek mennyiségétől (adatméretétől) és szerkezetétől függ. Például néhány talajmintával rendelkező adatkészletek elegendőek lehetnek megbízható PTF-ek kialakításához viszonylag kis földrajzi területeken 12. Ugyanakkor nagy és heterogén tájon, nagy a talaj térbeli változékonyságával 13, a PTF teljesítményét a talajmintavételi helyek mérete és elterjedése befolyásolja 14. Általában azt állítják, hogy a PTF-eket nem szabad extrapolálni azon földrajzi régión vagy talajtípuson túl, amelyből kifejlesztették őket 15,16,17,18,19. Egy ilyen javaslat számos régióspecifikus és PTF-specifikus talaj-adatbázis létrehozásához vezetett az országokban és a kontinenseken 4,5,6,7. Ideális esetben a kalibrációs és validációs adatok és az alapul szolgáló korrelációs struktúra közötti hasonlóságokat vagy különbségeket a fejlett PTF 20,21 hatékonyságának kulcsfontosságú tényezőinek kell tekinteni, nem pedig földrajzi származásuknak. Egy ilyen hipotézist tudomásunk szerint kísérleti adatokkal nem teszteltek. Pontosabban, hogy mi képezi a képzési adatkészlet kulcsfontosságú elemeit, és hogyan lehet ilyen adatkészletet létrehozni, nincs egyértelműen meghatározva.
A talajok térbeli változékonysága összetett, és a talaj tulajdonságai általában nem felelnek meg a térbeli stacionaritás szabályainak 22. Ezenkívül a nagy területekről gyűjtött minták sok talajtulajdonsága magában rejlő nem-linearitást mutat 14. A régi talajadatok a térbeli változékonyságra és a nem-linearitásra vonatkozóan is információkat tartalmaznak 23. Ezenkívül a sok régi talaj-adatbázisban rendelkezésre álló adatok nagysága és mennyisége nagy 24. Így a régi adatok gazdag adatforrásként szolgálhatnak a régióspecifikus PTF-ek fejlesztéséhez, ha a képzési adatkészlet főbb jellemzői jól definiálva vannak, és kidolgoznak egy módszertant egy ilyen adatkészlet örökölt adatokból történő kinyerésére. Fontos, hogy egy ilyen módszertan időt és erőfeszítést fog megtakarítani a régióspecifikus PTF-ek fejlesztéséhez szükséges új adatkészletek létrehozásához.
Ezért ennek a tanulmánynak az volt az általános célja, hogy megvizsgálja, felhasználhatók-e a nagyszabású, régi talaj-adatbázisok képzési adatok megszerzésére a PTF-ek kalibrálásához. A konkrét cél az volt, hogy megvizsgálják, hogy a korrelációs struktúra, a térbeli változékonyság és a nem-linearitás hogyan befolyásolja a PTF teljesítményét a képzési és tesztadatokban. E célkitűzések teszteléséhez kiválasztottuk az Országos Talajfelmérési és Földhasználati Tervezési Iroda (NBSS & LUP), Nagpur, India (a továbbiakban: Indian Soil Legacy vagy ISL adatbázis) által gyűjtött talajvizsgálati adatokat örökölt adatforrásként. Az ISL adatbázist használtuk (fekete pontokkal ábrázolva az 1. ábrán) a PTF-ek kalibrálásához több oktatási adatkészlet fejlesztéséhez. Az elmúlt évtizedben az Odisza és Nyugat-Bengália államok számára talajadatbázisokat is kifejlesztettünk (az 1. ábrán zöld pöttyökkel mutatjuk be), a spektrumkönyvtár kiépítésének részeként a kelet-indiai talajok számára. Ezt a két regionális talaj-adatbázist használták független tesztadatkészletként; a továbbiakban ezeket az adatbázisokat nyugat-bengáli tesztadatoknak (WBT-adatbázis) és Odisha-tesztadatoknak (ODT-adatbázis) nevezzük. Mivel a kationcsere-kapacitás (CEC) adatai mind a három adatkészletben rendelkezésre álltak, és ez egy fontos talajfunkciós paraméter 27, a CEC-t jelöltük meg a PTF-ek fejlesztésére a régi adatbázisból. Mind a lineáris, mind a nem lineáris modellezési megközelítéseket, például a többszörös lineáris regressziót (MLR), a gerinc regressziót (RR), a támogató vektor regressziót (SVR), a random erdőt (RF) és az extrém gradiens fokozást (XGB) vizsgálták, hogy robusztus PTF-t fejlesszenek ki. CEC. Az XGB megközelítés hatékony gépi tanulási algoritmus 28, és a talajirodalomban nem használták PTF-ek fejlesztésére.
India térképe az indiai talaj örökség adatainak mintavételi helyeivel. Kilenc talajmeghatározási adatkészletet (WB250 - WB2250) nyertünk, ha a Nyugat-Bengáliában (jobb oldali panel) elhelyezkedő középponttól (88,901 ° K és 23,126 ° É) 250–2 250 km sugarú köröket rajzoltunk. Nyolc talajmeghatározási adatkészletet (OD250 - OD2250) kaptunk úgy, hogy az Odisza államban elhelyezkedő középponttól (85,584 ° K és 21,088 ° N) 250–2000 km sugarú köröket rajzoltunk (bal oldali panel). Az indiai Kharagpuri Indiai Műszaki Intézet Talajfizikai laboratóriuma által összegyűjtött nyugat-bengáli (WBT) és Odisha vizsgálati adatok (ODT) mintavételi helyét zöld pontok jelzik.
Indiai talaj-örökség adatbázis (képzési adatok)
Nyugat-Bengál és Odisha adatbázis (tesztadatok)
Képzési adatok kiválasztása a talaj örökségének nagyméretű adatbázisából
Helyi hasonlóság
Az edzés és a tesztadatok térszerkezete
A vizsgálati adatok térbeli változékonysága
A WBT adatkészlet lineáris szemivariogramot eredményezett a CEC esetében nugget = 32,13, sill = 52,38 és hatótávolság = 24,45 km, míg az ODT adatok tiszta rög variogramot (nugget = 105,18) mutattak. Megismételtük a szemivariogram elemzéseket, a WBT minták CEC adatainak trendjének eltávolításával, és az eredmények az ODT adatkészlethez hasonló tiszta rög hatást mutattak. Térbeli struktúra nélkül a tesztadatkészletek CEC-értékei véletlenszerűen eloszlottaknak tekinthetők a vizsgálati területek között.
Az edzésadatok térbeli változékonysága
A tesztadatkészletekhez hasonlóan a szemivariogramok illesztése előtt eltávolítottuk a trendeket mind a 34 képzési adatkészletből. Általában egy gömbös modellt illesztettek a CEC, az agyag és a pH-érték maradványaihoz, míg egy exponenciális modellt illesztettek a SOC-értékek maradványaihoz. A talaj tulajdonságaihoz illesztett szemivariogramok tartományértékeit az egyes képzési adatkészletek számára a képzési adatkészlet sugarának függvényében ábrázoljuk (2. ábra). A 2. ábra azt mutatja, hogy az oktatási adatkészletek hatótávolsága körülbelül 1250 km a CEC esetében, 1000 km agyag, és körülbelül 1500 km a pH és SOC értékek esetében. Az 1 000–1 500 km közötti tartományi paraméterek esetén a térbeli összefüggés és a prediktor változó akkor is elvárható, ha a teljes ISL adatbázist használjuk edzésadatként. A felszíni talajok nyugat-bengáli központú képzési adatállományához kapott szemivariogramokat és a teljes profilú talajokra vonatkozó Odisha központú képzési adatkészleteket szemlélteti kiegészítő anyagként (S3. Ábra).
A kationcserélő képességre (CEC), az agyagra, a pH-ra és a talaj szerves szénére (SOC) illesztett elméleti szemivariogramok tartománya (km) minden nyugat-bengáli (WB) centrikus és Odisha (OD) centrikus helyadatkészlethez viszonyítva a sugár (km) a helyadatok mindegyikéhez.
Korrelációs struktúra a prediktor és a válaszváltozók között
A Pearsons-féle korrelációs együttható és a távolság-korrelációs együttható értékei a kationcserélő képesség (CEC) és az agyagtartalom (agyag), a CEC és a pH, a CEC és a talaj szerves széntartalma (SOC), valamint a CEC és az agyag, pH, SOC között, kombinálva a nyugat-bengáli centrumhoz a teljes talajminták régi helyadatkészletei.
PTF-ek a CEC-hez régi adatokból
Maximális Pearsons-korrelációs együtthatók (ρ) és a minimális gyökérzetes négyzetes hiba (RMSE) minimumértékei azoknak a PTF-eknek a tesztelésére, amelyeket a maximális ρ-t kimutató speciális képzési adatkészleteken betanított nyugat-bengáli és odishai tesztadatkészleteken teszteltek. Az ábra a maximális távolság-korrelációs együtthatókat (dCor) és a minimális gyökér átlag négyzethiba (RMSE) értékeket is ábrázolja azoknak a PTF-eknek, amelyeket a maximális dCor-értékeket bemutató speciális képzési adatkészleteken betanított nyugat-bengáli és odisai tesztadatkészleteken teszteltek.
Vita
A régi talajadatok felhasználásának sémája az adott régióra jellemző robusztus pedotranszfer funkciók megszerzéséhez a nehezen mérhető talaj tulajdonságaihoz; GAM: általános additív modell, dCor: távolsági összefüggés, CEC: kationcserélő képesség, SOC: talaj szerves széntartalma.
Mód
M1-gyűjtemény és tesztadat-összeállítás
A képzési adatkészletek M2 kiválasztása
M3-geostatisztikai elemzés
Megvizsgáltuk a térszerkezetet az összes képzési adatállományban és a tesztadatkészleteket a PTF fejlesztésében szerepet játszó összes talajtulajdonság szempontjából. A teljes talajprofil-adatokhoz a talajprofil-adatok súlyozott átlagát vettük figyelembe az egyes helyszíneken a szemivariogramok becsléséhez. Különböző elméleti szemivariogram funkciókat illesztettek mindegyik kísérleti szemivariogramhoz, hogy megkapják a tartomány, a rög és a küszöbértékeket. Ezek a paraméterek egy átlagos különbségtételt adtak meg egy tulajdonságra vonatkozóan az elválasztási távolság függvényében. A legjobban illeszkedő elméleti szemivariogram modelleket a súlyozott legkisebb négyzet alakú illesztés alapján választottuk, ahol az egyes lag osztályok súlyai (wi) arányosak voltak az adatpárok számával és fordítva arányosak a lag távolsággal. Mivel a talajmintákat széles földrajzi területekről gyűjtöttük, a szemivariogram modellek illesztése előtt eltávolítottuk az állományt az adatkészletekből. Trend felületi modellt alkalmaztunk a megfigyelt adatok legkisebb négyzetes megközelítéssel történő irányítására. Ezután a maradványokat (= a megfigyelt és a modellezett talajparaméter közötti különbség) alkalmaztuk a szemivariogramok becslésére. Az összes geostatisztikai elemzést a rács és gstat csomagok R programozási környezetben 51 .
M4-függőség mérések
Az általánosított additív modellezés (GAM) 52 megközelítést szintén alkalmazták a CEC értékek és a prediktor változó (k) közötti pH, agyag és SOC tartalom közötti marginális kapcsolat vizsgálatára. A GAM alapgondolata az, hogy minden előrejelzőhöz illesszen egy funkciót a válasz és a prediktor változók közötti kapcsolatok rögzítésére. Az egyes prediktor változókhoz illesztett simító spline effektív szabadsági fokai jelzik a prediktorok és a válaszváltozó közötti mögöttes nemlinearitást. Büntetett simító spline megközelítést alkalmaztunk a simítás spline hatékony szabadsági fokának megválasztásához ehhez a tanulmányhoz mgcv csomag R programozási környezetben 51 .
A különböző talajparaméterek közötti korreláció mértékének kvantitatív értékeléséhez lineáris és nemlineáris korrelációs méréseket egyaránt alkalmaztunk. A két paraméter közötti lineáris korrelációt leíró Pearson-korrelációs együttható (ρ) a következő:
hol x és y két véletlen változó és n a változók száma. Hasonlóképpen, az 53 távolság-korreláció (dCor) egy nemlineáris függőségi mérték, amely eloszláson vagy sűrűségfüggvényeken alapul, és a következőképpen adható meg:
- A bentosikus Foraminifera térbeli diszperziója a Csendes-óceán északi részének középső mélységében 1 - Bernstein -
- Pylorus záróizom elhelyezkedése, ábra, felépítése és működési zavarai
- Szerkezet házi étrend Heathy Food kapcsolat
- Reneszánsz Periodizáció RP Diet Coach alkalmazás algoritmusok
- Polimerek Két teljes peptiddendrimer szerkezetének és lokális dinamikájának teljes szöveges összehasonlítása a