Alex Ratner

Snorkel/UW/Stanford

Legfrissebb hírek

  • [5/5/2020] Közelgő beszélgetés az MSR Frontiers in Machine Learning eseményen (7/23).
  • [2020.05.27.] A snorkellel végzett munkánk a kémiai reakciók biomedicinális irodalomból történő kivonására szolgál sajtóban!
  • [5/1/20] Munkánk a Snorkel alkalmazásával az orvosi képalkotás és monitorozás területén kereszt-modális sajtóban van!
  • [9/4/19] Új dokumentum elfogadásra került a NeurIPS számára szeletelő funkciók részhalmazok vagy adatkészletek szeleteinek megfigyelésére és modellezésére; lásd oktatóanyag a sznorkelben.
  • [8/15/19] Nagyon izgatott a Snorkel v0.9 kiadása! Kiadási megjegyzések itt.

A gépi tanulási rendszerek kiépítésének egyik legfontosabb szűk keresztmetszete ma a képzési adatkészletek létrehozása és kezelése. Az adatok kézi címkézése helyett azon dolgozom, hogy lehetővé tegyem a felhasználók számára a modern ML verem használatát a képzési adatkészletek programos felépítése és kezelése. Ezek a gyenge felügyeleti megközelítések hónapok vagy évek helyett napokban vagy hetekben épülhetnek fel. Nagyon szerencsés vagyok, hogy együtt dolgozhatok a Snorkel csapatával és a Hazy, Info, StatsML, DAWN és QIAI labor tagjaival.

Kutatási projektek

Adatprogramozás + Snorkel

Jared Dunnmon
A Snorkel lehetővé teszi a felhasználók számára, hogy a képzési adatkészleteket gyorsan és egyszerűen felcímkézzék, bővítsék és strukturálják azáltal, hogy programozási operátorokat írnak, nem pedig kézzel címkézik és kezelik az adatokat. A Snorkelről további információt a snorkel.org oldalon talál, és az új verzió kiadási megjegyzéseit!

Publikációk

Programos címkézés gyenge felügyeletként

A képzési adatok címkézése napjaink egyik legnagyobb szűk keresztmetszete a gépi tanulásban. Munkám azt vizsgálja, hogy a felhasználók képezhetnek-e modelleket kézzel címkézett képzési adatok nélkül, ehelyett ír címkézési funkciók, amelyek programozottan címkézik az adatokat gyenge felügyeleti stratégiák, például heurisztika, tudásbázisok vagy más modellek segítségével. Ezek a címkézési funkciók tetszőleges pontossággal és összefüggésekkel rendelkezhetnek, amelyek új rendszerekhez, algoritmikus és elméleti kihívásokhoz vezethetnek. További információ itt: Snorkel.

Kémiai reakciók kivonása a szövegből Snorkel segítségével. Emily Mallory, Matthieu de Rochemonteix, Alexander Ratner, Ambika Acharya, Christopher Ré, Roselie Bright, Russ Altman. BMC Bioinformatika 2020.

A multimodális adatprogramozás lehetővé teszi a gyors orvosi gépi tanulást. Jared Dunnmon *, Alexander Ratner *, Nishith Khandwala, Khaled Saab, Matthew Markert, Hersh Sagreiya, Roger Goldman, Christopher Lee-Messer, Matthew P. Lungren, Daniel L. Rubin, Christopher Ré. Minták 2020.

Snorkel: Gyors edzésadatok létrehozása gyenge felügyelettel (kiterjesztett legjobb verzió). Alex Ratner, Stephen Bach, Henry Ehrenberg, Jason Fries, Sen Wu, Christopher Ré. VLDBJ 2019. [Projekt]

Interaktív programozási címkézés a gyenge felügyelethez. Benjamin Cohen-Wang, Steve Mussmann, Alexander Ratner, Christopher Ré. A KDD adatgyűjtése, gondozása és címkézése a bányászat és a tanulás műhelyéhez 2019.

Kétségtelenül gyenge felügyelet a mély CT tanulási modellek számára a fej CT számára. Khaled Saab, Roger Goldman, Jared Dunnmon, Alexander Ratner, Hersh Sagreiya, Christopher Ré, Daniel L. Rubin. MICCAI 2019.

Géppel összeállított adatbázis a genomszéles társulási vizsgálatokról. Volodymyr Kuleshov, Jialin Ding, Christopher Vo, Braden Hancock, Alexander Ratner, Yang Li, Christopher Ré, Serafim Batzoglou, Michael Snyder. Nature Communications 2019.

Osprey: A kiegyensúlyozatlan kibontási problémák gyenge felügyelete kód nélkül. Eran Bringer, Abraham izraeli, Alexander Ratner, Christopher Ré. SIGMOD DEEM Workshop 2019.

Függőségi struktúrák elsajátítása gyenge felügyeleti modellekhez. Varoma Paroma, Frederic Sala, Ann He, Alexander Ratner, Christopher Ré. ICML 2019.

A minta komplexitásának javítása megfigyelési felügyelettel. Khaled Saab, Jared Dunnmon, Alexander Ratner, Daniel L. Rubin, Christopher Ré. ICLR Learning with Limited Labeled Data (LLD) Workshop 2019.

Snorkel DryBell: Esettanulmány a gyenge felügyelet telepítéséhez ipari méretekben. Stephen H. Bach, Daniel Rodriguez, Yintao Liu, Chong Luo, Haidong Shao, Cassandra Xia, Souvik Sen, Alexander Ratner, Braden Hancock, Houman Alborzi, Rahul Kuchhal, Christopher Ré, Rob Malkin. SIGMOD (Ipari) 2019.

Snorkel: Gyors edzésadatok létrehozása gyenge felügyelet mellett. Alex Ratner, Stephen Bach, Henry Ehrenberg, Jason Fries, Sen Wu, Christopher Ré. VLDB 2018. [Blog] [Projekt] [Poszter] [Diák] [Lefedettség: O'Reilly, EETimes, InfoWorld] ["Best Of" VLDB 2018]

Keresztmodális adatprogramozás az orvosi képekhez. Nishith Khandwala, Alex Ratner, Jared Dunnmon, Roger Goldman, Matt Lungren, Daniel Rubin, Christopher Ré. NeurIPS ML4H Workshop 2017.

Géppel összeállított adatbázis a genomszéles társulási vizsgálatokról. Volodymyr Kuleshov, Braden Hancock, Alex Ratner, Christopher Ré, Serafim Batzaglou, Michael Snyder. NeurIPS ML4H Workshop 2016. [Poszter]

Adatprogramozás: nagy edzéskészletek készítése, gyorsan. Alex Ratner, Christopher De Sa, Sen Wu, Daniel Selsam, Christopher Ré. NeurIPS 2016. [Blog] [Videó] [Poszter]

Az AMELIE felgyorsítja a mendeli betegdiagnosztikát közvetlenül az elsődleges irodalomból. Johannes Birgmeier, Maximilian Haeussler, Cole A. Deisseroth, Karthik A. Jagadeesh, Alexander J. Ratner, Harendra Guturu, Aaron M. Wenger, Peter D. Stenson, David N. Cooper, Christopher Ré, Jonathan A. Bernstein, Gill Bejerano. BioRxiv 2017. [Projekt]

Snorkel: Gyors képzési készlet generálása az információ kinyeréséhez. Alex Ratner, Stephen Bach, Henry Ehrenberg, Christopher Ré. SIGMOD Demo 2017. [Projekt]

Snorkel: A rendszer a könnyű kivonáshoz. Alex Ratner, Stephen Bach, Henry Ehrenberg, Jason Fries, Sen Wu, Christopher Ré. CIDR 2017. absztrakt.

Adatprogramozás a DDLite segítségével: Az emberek elhelyezése a hurok egy másik részében. Henry Ehrenberg, Jaeho Shin, Alex Ratner, Jason Fries, Christopher Ré. HILDA @ SIGMOD 2016.

Többfeladatos gyenge felügyelet

Többfeladatos tanulás egyre népszerűbb megközelítés számos kapcsolódó feladat közös modellezéséhez. A többfeladatos tanulási modellekhez azonban több nagy, kézzel címkézett képzési készlet szükséges. Munkám itt a gyenge felügyelet használatára összpontosít. Úgy látjuk, hogy ez egy olyan új paradigmát tesz lehetővé, amelyben a felhasználók dinamikusan, zajos módon gyorsan felírnak tíz-száz feladatot, és rendszereket és megközelítéseket vizsgálnak ennek támogatására. tömegesen többfeladatos rezsim. A kezdeti lépésekhez nézze meg a Snorkel MeTaL oldalt.

Képzési komplex modellek többfeladatos gyenge felügyelettel. Alex Ratner, Braden Hancock, Jared Dunnmon, Frederic Sala, Shreyash Pandey, Christopher Ré. AAAI 2019. [Projekt] [Poszter] [Szóbeli]

Snorkel MeTaL: Gyenge felügyelet a többfeladatos tanuláshoz. Alex Ratner, Braden Hancock, Jared Dunnmon, Roger Goldman, Christopher Ré. SIGMOD DEEM Workshop 2018. [Projekt]

Az adatok bővítése gyenge felügyeletként

Adatbővítés az egyre kritikusabb gyakorlat, hogy a kis címkével ellátott oktatási készleteket kibővítik az adatpontok átalakított másolatainak létrehozásával az osztálycímkék megőrzésével. Valójában ez egy egyszerű, modell-agnosztikus módszer arra, hogy a felhasználók be tudják adni tudásukat a tartomány- és feladat-specifikus változatlanságokról, és itt végzett munkám azt vizsgálja, hogyan tudjuk támogatni és felgyorsítani a gyenge felügyelet ezen erőteljes formáját.

A modern adatbővítés rendszermag-elmélete. Tri Dao, Albert Gu, Alex Ratner, Virginia Smith, Christopher De Sa, Christopher Ré. ICML 2019.

Egyéb

MLSys: A gépi tanulási rendszerek új határa. Alexander Ratner, Dan Alistarh, Gustavo Alonso, David G. Andersen, Peter Bailis, Sarah Bird, Nicholas Carlini, Bryan Catanzaro, Jennifer Chayes, Eric Chung, Bill Dally, Jeff Dean, Inderjit S. Dhillon, Alexandros Dimakis, Pradeep Dubey, Charles Elkan, Grigori Fursin, Gregory R. Ganger, Lise Getoor, Phillip B. Gibbons, Garth A. Gibson, Joseph E. Gonzalez, Justin Gottschlich, Song Han, Kim Hazelwood, Furong Huang, Martin Jaggi, Kevin Jamieson, Michael I. Jordan, Gauri Joshi, Rania Khalaf, Jason Knight, Jakub Konečný, Tim Kraska, Arun Kumar, Anastasios Kyrillidis, Aparna Lakshmiratan, Jing Li, Samuel Madden, H. Brendan McMahan, Erik Meijer, Ioannis Mitliagkas, Rajat Monga, Derek Murray, Dimitris Papailiopoulos, Gennady Pekhimenko, Christopher Ré, Theodoros Rekatsinas, Afshin Rostamizadeh, Christopher De Sa, Hanie Sedghi, Siddhartha Sen, Virginia Smith, Alex Smola, Dawn Song, Evan Sparks, Ion Stoica, Vivienne Sze, Jelex Madeline Shivaram Venkataraman, Rashmi Vinayak, Markus Weimer, Andrew Gordon Wilson, Eric Xing, Matei Zaharia, Ce Zhang, Ameet Talwalkar. 2019.

DeepDive: Nyilatkozati tudásbázis felépítése. Ce Zhang, Christopher Ré, Michael Cafarella, Christopher De Sa, Alex Ratner, Jaeho Shin, Feiran Wang, Sen Wu. Az ACM 2017 kommunikációja.

Deepdive: Deklaratív tudásbázis felépítése. Christopher De Sa, Alex Ratner, Christopher Ré, Jaeho Shin, Feiran Wang, Sen Wu, Ce Zhang. ACM SIGMOD Record 2016.

Kémiai reakciók kivonása a szövegből Snorkel segítségével. Emily Mallory, Matthieu de Rochemonteix, Alexander Ratner, Ambika Acharya, Christopher Ré, Roselie Bright, Russ Altman. BMC Bioinformatika 2020.

A multimodális adatprogramozás lehetővé teszi a gyors orvosi gépi tanulást. Jared Dunnmon *, Alexander Ratner *, Nishith Khandwala, Khaled Saab, Matthew Markert, Hersh Sagreiya, Roger Goldman, Christopher Lee-Messer, Matthew P. Lungren, Daniel L. Rubin, Christopher Ré. Minták 2020.

Interaktív programozási címkézés a gyenge felügyelethez. Benjamin Cohen-Wang, Steve Mussmann, Alexander Ratner, Christopher Ré. A KDD adatgyűjtése, gondozása és címkézése a bányászat és a tanulás műhelyéhez 2019.

Géppel összeállított adatbázis a genomszéles társulási vizsgálatokról. Volodymyr Kuleshov, Jialin Ding, Christopher Vo, Braden Hancock, Alexander Ratner, Yang Li, Christopher Ré, Serafim Batzoglou, Michael Snyder. Nature Communications 2019.

Kétségtelenül gyenge felügyelet a mély CT tanulási modellek számára a fej CT számára. Khaled Saab, Roger Goldman, Jared Dunnmon, Alexander Ratner, Hersh Sagreiya, Christopher Ré, Daniel L. Rubin. MICCAI 2019.

A modern adatbővítés rendszermag-elmélete. Tri Dao, Albert Gu, Alex Ratner, Virginia Smith, Christopher De Sa, Christopher Ré. ICML 2019.

Függőségi struktúrák elsajátítása gyenge felügyeleti modellekhez. Varoma Paroma, Frederic Sala, Ann He, Alexander Ratner, Christopher Ré. ICML 2019.

Osprey: A kiegyensúlyozatlan kibontási problémák gyenge felügyelete kód nélkül. Eran Bringer, Abraham izraeli, Alexander Ratner, Christopher Ré. SIGMOD DEEM Workshop 2019.

Snorkel: Gyors edzésadatok létrehozása gyenge felügyelettel (kiterjesztett legjobb verzió). Alex Ratner, Stephen Bach, Henry Ehrenberg, Jason Fries, Sen Wu, Christopher Ré. VLDBJ 2019. [Projekt]

A minta komplexitásának javítása megfigyelési felügyelettel. Khaled Saab, Jared Dunnmon, Alexander Ratner, Daniel L. Rubin, Christopher Ré. ICLR Learning with Limited Labeled Data (LLD) Workshop 2019.

MLSys: A gépi tanulási rendszerek új határa. Alexander Ratner, Dan Alistarh, Gustavo Alonso, David G. Andersen, Peter Bailis, Sarah Bird, Nicholas Carlini, Bryan Catanzaro, Jennifer Chayes, Eric Chung, Bill Dally, Jeff Dean, Inderjit S. Dhillon, Alexandros Dimakis, Pradeep Dubey, Charles Elkan, Grigori Fursin, Gregory R. Ganger, Lise Getoor, Phillip B. Gibbons, Garth A. Gibson, Joseph E. Gonzalez, Justin Gottschlich, Song Han, Kim Hazelwood, Furong Huang, Martin Jaggi, Kevin Jamieson, Michael I. Jordan, Gauri Joshi, Rania Khalaf, Jason Knight, Jakub Konečný, Tim Kraska, Arun Kumar, Anastasios Kyrillidis, Aparna Lakshmiratan, Jing Li, Samuel Madden, H. Brendan McMahan, Erik Meijer, Ioannis Mitliagkas, Rajat Monga, Derek Murray, Dimitris Papailiopoulos, Gennady Pekhimenko, Christopher Ré, Theodoros Rekatsinas, Afshin Rostamizadeh, Christopher De Sa, Hanie Sedghi, Siddhartha Sen, Virginia Smith, Alex Smola, Dawn Song, Evan Sparks, Ion Stoica, Vivienne Sze, Jelex Madeline Shivaram Venkataraman, Rashmi Vinayak, Markus Weimer, Andrew Gordon Wilson, Eric Xing, Matei Zaharia, Ce Zhang, Ameet Talwalkar. 2019.

Snorkel DryBell: Esettanulmány a gyenge felügyelet telepítéséhez ipari méretekben. Stephen H. Bach, Daniel Rodriguez, Yintao Liu, Chong Luo, Haidong Shao, Cassandra Xia, Souvik Sen, Alexander Ratner, Braden Hancock, Houman Alborzi, Rahul Kuchhal, Christopher Ré, Rob Malkin. SIGMOD (Ipari) 2019.

Képzési komplex modellek többfeladatos gyenge felügyelettel. Alex Ratner, Braden Hancock, Jared Dunnmon, Frederic Sala, Shreyash Pandey, Christopher Ré. AAAI 2019. [Projekt] [Poszter] [Szóbeli]

Snorkel: Gyors edzésadatok létrehozása gyenge felügyelet mellett. Alex Ratner, Stephen Bach, Henry Ehrenberg, Jason Fries, Sen Wu, Christopher Ré. VLDB 2018. [Blog] [Projekt] [Poszter] [Diák] [Lefedettség: O'Reilly, EETimes, InfoWorld] ["Best Of" VLDB 2018]

Snorkel MeTaL: Gyenge felügyelet a többfeladatos tanuláshoz. Alex Ratner, Braden Hancock, Jared Dunnmon, Roger Goldman, Christopher Ré. SIGMOD DEEM Workshop 2018. [Projekt]

Keresztmodális adatprogramozás az orvosi képekhez. Nishith Khandwala, Alex Ratner, Jared Dunnmon, Roger Goldman, Matt Lungren, Daniel Rubin, Christopher Ré. NeurIPS ML4H Workshop 2017.

Az AMELIE felgyorsítja a mendeli betegdiagnosztikát közvetlenül az elsődleges irodalomból. Johannes Birgmeier, Maximilian Haeussler, Cole A. Deisseroth, Karthik A. Jagadeesh, Alexander J. Ratner, Harendra Guturu, Aaron M. Wenger, Peter D. Stenson, David N. Cooper, Christopher Ré, Jonathan A. Bernstein, Gill Bejerano. BioRxiv 2017. [Projekt]

DeepDive: Nyilatkozati tudásbázis felépítése. Ce Zhang, Christopher Ré, Michael Cafarella, Christopher De Sa, Alex Ratner, Jaeho Shin, Feiran Wang, Sen Wu. Az ACM 2017 kommunikációja.

Snorkel: Gyors képzési készlet generálása az információ kinyeréséhez. Alex Ratner, Stephen Bach, Henry Ehrenberg, Christopher Ré. SIGMOD Demo 2017. [Projekt]

Snorkel: A rendszer a könnyű kivonáshoz. Alex Ratner, Stephen Bach, Henry Ehrenberg, Jason Fries, Sen Wu, Christopher Ré. CIDR 2017. absztrakt.

Adatprogramozás: nagy edzéskészletek készítése, gyorsan. Alex Ratner, Christopher De Sa, Sen Wu, Daniel Selsam, Christopher Ré. NeurIPS 2016. [Blog] [Videó] [Poszter]

Géppel összeállított adatbázis a genomszéles társulási vizsgálatokról. Volodymyr Kuleshov, Braden Hancock, Alex Ratner, Christopher Ré, Serafim Batzaglou, Michael Snyder. NeurIPS ML4H Workshop 2016. [Poszter]

Adatprogramozás a DDLite segítségével: Az emberek elhelyezése a hurok egy másik részében. Henry Ehrenberg, Jaeho Shin, Alex Ratner, Jason Fries, Christopher Ré. HILDA @ SIGMOD 2016.

Deepdive: Deklaratív tudásbázis felépítése. Christopher De Sa, Alex Ratner, Christopher Ré, Jaeho Shin, Feiran Wang, Sen Wu, Ce Zhang. ACM SIGMOD Record 2016.

Blogbejegyzések

Néhány magas szintű gondolat és oktatóanyag; További blogbejegyzésekért lásd a papírspecifikusakat, és nézze meg a https://www.snorkel.org/blog/ oldalt.

Régebbi hírek

[6/4/19] Két új ML + gyógyszercikk Snorkelt használva: GWAS-vizsgálatok kivonása (Nature Communications) és kétszeresen gyenge felügyelet a fej CT számára (MICCAI 2019); lásd kocsmák.

[4/20/19] Új műhelymunka a megfigyelési (szemkövető) adatok felhasználásáról a képosztályozás javítása érdekében.

[3/29/19] A Snorkel radiológiai és neurológiai alkalmazásokhoz történő alkalmazásával kapcsolatos munkánk kézirata (felülvizsgálat alatt).

[4/17/19] Közelgő megbeszélések: Örülök, hogy az SF-i Data Councilban arról beszélgettünk, hogy a Snorkelt adattudományi és adatmérnöki célokra használják (4/17); CMU Tepper School (4/19); ODSC East Bostonban (5/3); RAAIS Londonban (6/28)

[3/14/19] Új bejegyzés a Google AI blogon a Snorkel ottani telepítésével kapcsolatos munkánkról; a ZDNet és az Adattudomány felé is foglalkozik.

[3/14/19] Az ICLR 2019 műhelyünk beküldési határideje: Tanulás korlátozott feliratokból (LLD), elhalasztva 3/24-ig

[2/13/19] A SIGMOD 2019-ben elfogadott jelentésünk a Google-lal a Snorkel ipari felhasználásáról

[2/1/19] Beszélünk a többfeladatos felügyelettel kapcsolatos munkánkról @ AAAI- 10:00

[1/1/19] Beszélgetés a többfeladatos tanulásról szóló elképzelésünkről @ CIDR

[11/6/18] Az orvostudományi KBC 2. sznorkel műhelyének otthona

[10/31/18] A többfeladatos gyenge felügyeletről szóló tanulmányunkat elfogadta az AAAI

[10/31/18] Bemutató az ODSC Westnél, 11/3-án, SF-ben

[10/22/18] A masszívan többfeladatos gyenge felügyeletről szóló jövőképünket elfogadtuk a CIDR 2019-ben

[8/28/18] Várakozással tekintünk a snorkel bemutatóra a riói VLDB-n

[7/28/18] Izgatottan csatlakozom a SysML 2019 szervező bizottságához; benyújtási határidő: 9/28

[7/12/18] Éppen egy napot töltött be a Snorkel-en az ACM Data Science Summer School-ban; nézze meg itt az anyagokat.

[6/15/18] Beszélgetés a DEEM gyengén felügyelt MTL-vel kapcsolatos jelenlegi munkánkról.

[2/3/18] Beszélni a gépi tanulási modellek programozásáról gyenge felügyelet mellett az AAAI DeLBP műhelyében.

[1/22/18] Beszélgetés a sznorkelről, a gyenge felügyeletről és az információ kinyeréséről a Data Engineering podcaston.

[12/15/2017] A NeurIPS LLD 2017 műhelyünkről készült cikkek és beszélgetési diák ide kerültek fel.

[10/15/2017] A Snorkelről szóló cikkünket elfogadták a VLDB 2018-ban! Új blogbejegyzés itt.

[12/9/2017] Izgatottan kezdem meg a gyenge felügyelet témájú workshopot a NeurIPS 2017-en: Tanulás korlátozott címkézett adatokból: gyenge felügyelet és túl.

[9/26/2017] Beszélgetés az adatprogramozásról és a sznorkelezésről a New York-i Strata Data Conference-en.

[9/4/2017] A NeursIPS 2017-re elfogadott adatbővítési modellek tanulási munkánk! Nézze meg a blogbejegyzést + kódot

[7/19/2017] A Snorkel workshop a Mobilize Center házigazdája! Anyagok és videók hamarosan online.

[7/12/2017] Új blogbejegyzés a gyenge felügyeletről - küldje el nekünk visszajelzését

[7/10/2017] Megjelent a Snorkel 0.6-os verziója

[6/8/2017] Beszélgetés az adatprogramozásról + Snorkel az O'Reilly Data Show Podcast-on.