FoodX-251: Adatkészlet a finomszemcsés élelmiszerek osztályozásához
Parneet Kaur Karan Sikka ∨ Weijun Wang ‡ Serge Belongie ⨿ Ajay Divakaran ∨
∨ SRI International, Princeton, NJ
‡ Google, Los Angeles, Kalifornia
Cornell Tech, New York, NY
A SRI International gyakorlatánál végzett munka egy része. Levelező szerző, [email protected]
Absztrakt
Az élelmiszerek osztályozása kihívást jelent a kategóriák nagy száma, a különféle élelmiszerek közötti nagy vizuális hasonlóság, valamint a korszerű mély modellek képzéséhez szükséges adatkészletek hiánya miatt. A probléma megoldásához mindkét számítógépes látásmodell előrehaladására, valamint ezen modellek kiértékeléséhez szükséges adatkészletekre lesz szükség. Ebben a cikkben a második szempontra összpontosítunk, és bemutatjuk a FoodX-251-et, amely egy 251 finomszemcsés élelmiszer kategóriát tartalmazó adatkészlet, 158 ezer képpel, amelyeket az internetről gyűjtöttek össze. 118 k képet használunk képzési készletként, és 40 k képhez biztosítunk ember által ellenőrzött címkéket, amelyek felhasználhatók validálásra és tesztelésre. Ebben a munkában felvázoljuk az adatkészlet létrehozásának eljárását, és a releváns alapvonalakat mély tanulási modellekkel látjuk el. A FoodX-251 adatkészletet az iFood-2019 kihívás 1 1 1 https://www.kaggle.com/c/ifood-2019-fgvc6 szervezésére használták a Finomszemcsés Vizuális Besorolás műhelyben (FGVC6 a CVPR 2019-nél), és letölthető. 2 2 2 https://github.com/karansikka1/iFood_2019
1. Bemutatkozás
Az okostelefonok használatának hatalmas növekedése felkeltette az érdeklődést az élelmiszer-bevitel és a trendek ellenőrzésére szolgáló eszközök kifejlesztése iránt [24, 28, 21]. A kalóriabevitel megbecsülése segítheti a felhasználókat az étkezési szokások megváltoztatásában és az egészséges étrend fenntartásában. A jelenlegi élelmiszer-naplózási alkalmazások, például a Fitbit App [1], a MyFitnessPal [3] és a My Diet Coach [2] megkövetelik, hogy a felhasználók manuálisan adják meg az étkezési adataikat. A [11] 141 résztvevőjéből készült tanulmány szerint a résztvevők 25% -a abbahagyta az élelmiszer-naplózást az ezzel járó erőfeszítések miatt, míg 16% -uk abbahagyta, mert úgy találta, hogy ez időigényes. Másrészt, ha számítógépes látásalapú megoldást tervezünk a kattintott képek kalóriáinak mérésére, akkor ez a folyamat nagyon kényelmes. Ilyen algoritmusra általában több részprobléma megoldására lenne szükség - az adott élelmiszerek 3D-s térfogatának osztályozása, szegmentálása és becslése. Ebben a munkában arra összpontosítunk, hogy olyan adatsort állítsunk elő, amely megkönnyíti az élelmiszerek állóképekben történő osztályozásának első feladatát.
Az élelmiszerek besorolása több okból is kihívást jelent: nagyszámú, finom szemcséjű élelmiszer-kategória, amely magas osztályon belüli és alacsony osztályközi változékonyságot eredményez (pl. Különböző tésztafajták), a nem -merev tárgyak és az élelmiszer-összetétel nagy átfedése több étel között. Továbbá, összehasonlítva a szokásos számítógépes látásproblémákkal, mint például az objektum-felismerés [20] és a jelenet-osztályozás [29], az élelmiszer-osztályozáshoz szükséges adatkészletek mennyiségi és minőségi szempontból egyaránt korlátozottak a mély idegi hálózatok képzése és értékelése szempontjából. Ebben a munkában az élelmiszerek osztályozásával kapcsolatos jelenlegi kutatásokat hajtjuk végre egy új, 251 finomszemcsés osztályból álló, 158 ezer képből álló adatkészlet bevezetésével, amely az osztályok és adatminták számában felülírja a korábbi adatkészleteket.
2 Kapcsolódó munka
2. ábra: Zaj a webes adatokban. Domainek közötti zaj: A webes képkeresés a meghatározott élelmiszerosztály képeivel együtt feldolgozott és csomagolt élelmiszerek és azok összetevőinek képeit is tartalmazza. Kategóriák közötti zaj: Egy képnek többféle élelmiszere lehet, de csak egy címke az alapigazsága.101 | 101 000 | foodspotting.com | Egyéb. |
101 | 90,840 | Web | Egyéb. |
50 | 5000 | Web | Egyéb. |
85 | 8500 | Web | Egyéb. |
6. | 5000 | Web | Egyéb. |
75 | 4350 | Web, okostelefon | Egyéb. |
256 | osztályonként legalább 100 | Web | japán |
208 | 185,628 | Web | kínai |
520 | 225,953 | Web | Közép-európai |
251 | 158,846 | Web | Egyéb. |
Korábbi munkák megpróbálták megoldani az élelmiszer-besorolás korlátozott adatkészleteinek kérdését azáltal, hogy képzési adatokat gyűjtöttek emberi annotátorok vagy tömegforrás-platformok segítségével [13, 8, 18, 28, 21]. Az ilyen adatkezelés drága, és korlátozza a skálázhatóságot a képzési kategóriák száma, valamint a képzési minták száma kategóriánként. Ezenkívül kihívást jelent a képek címkézése az élelmiszer-osztályozási feladatokhoz, mivel gyakran vannak együtt előforduló élelmiszerek, részben elzárt élelmiszerek, és nagymértékben változóak a méretarány és a nézőpontok. Ezeknek a képeknek a pontos megjegyzéséhez megkötő mezőkre lenne szükség, ami még több időt és költséget jelentene az adatok gondozásában. Ezért fontos, hogy az élelmiszer-adathalmazokat minimális adatmegőrzéssel állítsuk össze, hogy azok a végső alkalmazás alapján új kategóriákra skálázhatók legyenek. Megoldásunkat a webes keresőmotorokban rendelkezésre álló ismeretek kiaknázásának és azok felhasználásának nagyszabású adatgyűjtéshez, minimális felügyelet mellett történő felhasználása motiválja [17]. .
Az emberi felügyelet által nyert adatoktól eltérően a webes adatok szabadon hozzáférhetők bőségesen, de különböző típusú zajokat tartalmaznak [9, 27, 25]. A keresőmotorokon keresztül gyűjtött internetes képek tartalmazhatnak feldolgozott és becsomagolt élelmiszerek képeit, valamint az élelmiszerek elkészítéséhez szükséges összetevőket a 2. ábrán látható módon. Ezt a zajt tartományok közötti zajnak nevezzük, mivel a keresőmotorok és a felhasználói címkék miatti elfogultság miatt. Ezenkívül a webes adatok tartalmazhatnak olyan képeket is, amelyek több élelmiszer-tételt tartalmaznak, miközben egyetlen élelmiszer-kategóriára vannak címkézve (kategóriák közötti zaj). Például a Guacamole címkével ellátott képeken a Nachos lehet a domináns (2. ábra). A webes eredmények tartalmazhatnak olyan képeket is, amelyek nem tartoznak egy adott osztályhoz.
Az 1. táblázat felsorolja az élelmiszer-osztályozás korábbi adatait. Az ETHZ Food-101 [7] 101 kategória 101 000 képéből áll. A képeket az élelmiszerek fotómegosztó weboldaláról (foodspotting.com) töltik le. A tesztadatokat a szerzők manuálisan megtisztították, míg a képzési adatok kategóriák közötti zajból, azaz képekből áll, amelyekben egyetlen ételhez több élelmiszer tartozik. Az UPMC Food-101 [26] 90 840 képből áll, ugyanahhoz a 101 kategóriához, mint az ETHZ Food-101, de a képeket internetes keresőmotor segítségével tölti le. Néhány más, kevesebb élelmiszer-kategóriával rendelkező élelmiszer-felismerési adatkészlet [16, 15, 4, 5] szintén az 1. táblázatban található. Ezekkel az adatkészletekkel összehasonlítva adatkészletünk több osztályból (251) és képből (158 k) áll .
Az UEC256 [18] 256 kategóriából áll, határoló mezővel, amely a kategóriacímke helyét jelzi. Leginkább azonban japán ételeket tartalmaz. A ChineseFoodNet [10] 185, 628 képből áll 208 kategóriában, de csak a kínai ételekre korlátozódik. A NutriNet adatkészlet [22] 225, 953 képet tartalmaz 520 étel és ital osztályból, de csak közép-európai ételekre korlátozódik. Ezekkel az adatkészletekkel összehasonlítva az out adatkészlet különféle konyhák különféle élelmiszereiből áll.
3 FoodX-251 adatkészlet
Bemutatunk egy 251 finom szemcsés (elkészített) élelmiszer kategóriát tartalmazó új adatkészletet, amelyből 158 k kép gyűlik össze az internetről. 118 k képből álló képzési készletet és ember által ellenőrzött címkéket biztosítunk mind a 12 k kép érvényesítési készletéhez, mind a 28 k kép tesztkészletéhez. Az osztályok finom szemcsézetűek és vizuálisan hasonlóak, például különböző típusú sütemények, szendvicsek, pudingok, levesek és tészták.
3.1 Adatgyűjtés
Kezdjük a Food-101 adatkészlet 101 élelmiszer-kategóriájával [7], és testvérkategóriáikat kivonjuk a WordNet-ből [23, 6]. Először manuálisan szűrünk és távolítunk el minden nem élelmiszer jellegű vagy kétértelmű osztályt. 3 3 3 Kétértelműen utalunk azokra az ételosztályokra, ahol az emberek nem látszanak vizuális konszenzusban. Mivel elsődleges célunk a finomszemcsés élelmiszerek osztályozási feladata, az általános élelmiszerosztályokat is eltávolítjuk. Például különféle tészták és sütemények szerepelnek benne, de a „tészta” és a „torta” törlésre kerül a listáról. Ez 251 ételosztályt ad nekünk.
Minden osztályhoz webes képkeresést használunk a megfelelő képek letöltéséhez. Az ezeken a keresőmotorokon található képek jellege miatt ezek a képek gyakran tartalmaznak feldolgozott és becsomagolt élelmiszerek és azok összetevőinek képeit, amelyek tartományok közötti zajokat eredményeznek. Megfigyeljük a kategóriák közötti zajt is, amikor egyetlen élelmiszerrel történő képkereséshez néhány képet töltenek le, amelyek több élelmiszer-elemet tartalmaznak (lásd 2. ábra).
Az adatkészletből tovább szűrjük a pontos és a majdnem pontos duplikát képeket. Ezután véletlenszerűen kiválasztottunk 200 képet minden osztályból, és emberi értékelők (3 replikáció) végeztek ellenőrzést ezen a készleten. Az ellenőrzött készletből véletlenszerűen 70% képet választunk ki tesztelésre, 30% -ot pedig validálásra. Az összes fennmaradó képet képzési készletként használjuk. Az emberi ellenőrzési lépés biztosítja, hogy az érvényesítés és a tesztkészlet tiszta legyen a tartományok közötti vagy kategóriák közötti zajoktól. A nagy számú mintát tartalmazó kategóriákra példa általában az olyan népszerű élelmiszerek, mint a „churro” vagy a „húsgombóc”, míg az alacsonyabb mintaszámmal rendelkező kategóriák példái kevésbé népszerűek, mint a „márvány torta”, „homár keksz” és „steak”. -tartare ”(3. ábra).
3.2 Értékelési mutató
Hasonló metrikát követünk, mint az ILSVRC osztályozási feladatai [12]. Minden i képhez egy algoritmus 3 címkét állít elő l i j, j = 1, 2, 3, és egy megalapozott igazság címke van g i. A kép hibája:
Egy algoritmus általános hibapontszáma az összes N tesztkép átlagos hibája:
s c o r e = 1 N ∑ i e i . | (3) |
A 3. legjobb hiba% | ||
Val. | Teszt | |
Nyilvános | Magán | |
0,36 | 0,37 | 0,37 |
0,16 | 0,17 | 0,17 |
3.3 Alapszintű teljesítmény
Naiv alapvonalat valósítunk meg egy előre kiképzett ResNet-101 hálózat használatával [14]. A modellt az ADAM optimalizálóval [19] képezzük, 5 e - 5 tanulási sebességgel, amelyet minden 10 korszak után 10-szeresére esünk. A modell legfeljebb 50 korszakra van kiképezve, korai leállítási kritériumokkal, az érvényesítési készlet teljesítménye alapján. Véletlenszerű vízszintes flipeket és növényeket használunk az adatok bővítéséhez. A tesztkészlet teljesítményének kiszámításához a validációs halmazon a legjobb teljesítményű ellenőrző pontot használjuk. A 2. táblázatban bemutattuk az érvényesítési és tesztfelosztási eredményeket (a Kaggle-kihívás oldalának megfelelően) .
Megfigyeltük, hogy a ResNet-101 modell csak az utolsó réteg finomhangolása szignifikánsan alacsonyabb teljesítményt mutat, mint az összes réteg finomhangolásával (0,37 vs. 0,17). Úgy gondoljuk, hogy ez azért fordul elő, mert az eredeti, előre kiképzett szűrők nem megfelelőek az élelmiszer-osztályozási feladathoz. Ennek eredményeként a teljes hálózat finomhangolása jelentősen növeli a finomszemcsés osztályozási feladat teljesítményét.
4 iFood Challenge az FGVC műhelyén
A FoodX-211 adatkészletet az iFood-2019 4 4 4 https://www.kaggle.com/c/ifood-2019-fgvc6 kihívásban használták a CVPR 2019 finomszemcsés vizuális kategorizáló műhelyében (FGVC6). 5 5 5 https://sites.google.com/view/fgvc6 Az adatkészlet letölthető is. 6 6 6 https://github.com/karansikka1/iFood_2019
Ez az adatkészlet a FoodX-211 adatkészlet kiterjesztése, amelyet az iFood-2018 7 7 7 kihívás fogadására használtak https://github.com/karansikka1/Foodx at FGCV5 (CVPR 2018). A FoodX-211-nek 211 osztálya volt 101 k képképpel, 10 k validációs képpel és 24 k tesztképpel.
5 Következtetések
Ebben a munkában egy új, 251 osztályú és 158 ezer képből álló ételkészletet állítottunk össze. Emellett 40 k-os képekhez biztosítunk ember által ellenőrzött címkéket. A kiindulási eredmények a legkorszerűbb ResNet-101 osztályozó használatával 17% top-3 hibaarányt mutatnak. Lehetőség van arra, hogy a kutatói közösség kifinomultabb megközelítéseket alkalmazzon ezen az adatkészleten az osztályozó teljesítményének további javítása érdekében. Reméljük, hogy ez az adatkészlet lehetőséget nyújt az automatizált élelmiszer-osztályozás módszereinek kidolgozására, valamint egyedülálló adatkészletként szolgál a számítógépes látáskutató közösség számára a finom szemcsézésű vizuális kategorizálás feltárására.
6 köszönetnyilvánítás
Hálásak vagyunk az FGVC workshop szervezőinek az iFood verseny megrendezésének lehetőségéért. Hálásan köszönjük, hogy az SRI International erőforrásokat biztosított az adatgyűjtéshez, a Google pedig erőforrásokat biztosított az adatok címkézéséhez. Köszönettel tartozunk továbbá Tsung-Yi Lin-nek és a CVDF-nek, hogy segítettek az adatok feltöltésében, valamint Maggie Demkinnek, Elizabeth Parknak és Wendy Kan-nak a Kaggle-től, akik segítettek nekünk a kihívás felállításában.
- Élelmiszer, amely késleltetheti a menopauzát - először a nők számára
- Élelmiszer terápiák aranyérrel - TCM Wiki
- Élelmiszer, amely meghódította a világ spártai fekete húslevesét, Danny Kane a History Medium feltárásával
- A csontokat építő étel
- Ételcserék a jobb étkezéshez