Setiau Data Agored
Darganfyddwch setiau data ffynhonnell agored sy'n eich galluogi i fynd i hyfforddi modelau ML
Setiau Data Ffynhonnell Agored I'ch Dechrau Chi gyda Modelau AI / ML
Nid yw allbwn eich modelau AI & ML cystal â'r data rydych chi'n ei ddefnyddio i'w hyfforddi - felly mae'r manwl gywirdeb rydych chi'n ei gymhwyso i gydgrynhoi data a thagio ac adnabod y data hwnnw yn bwysig!
Felly os ydych chi am gychwyn menter AI / ML newydd ac yn awr rydych chi'n sylweddoli'n gyflym y bydd dod o hyd i ddata hyfforddi o ansawdd uchel yn un o agweddau mwy heriol eich prosiect gan mai setiau data o ansawdd uchel yw'r tanwydd sy'n cadw'r AI / Peiriant ML yn rhedeg. Rydym wedi cronni rhestr o setiau data agored sy'n rhad ac am ddim i'w defnyddio a'u hyfforddi i'ch modelau AI / ML yn y dyfodol.
arbenigo | Math o Ddata | Enw'r Set Ddata | Diwydiant / Adran. | Achos Anodi / Defnydd | Disgrifiad | Cyswllt |
---|---|---|---|---|---|---|
NLP | Testun | Adolygiadau Amazon | E-fasnach | Dadansoddiad Sentiment | Set o adolygiadau a graddfeydd 35 Mn dros y 18 mlynedd diwethaf mewn testun plaen gyda manylion y defnyddiwr a'r cynnyrch. | Cyswllt |
NLP | Testun | Data Cysylltiadau Wikipedia | cyffredinol | Mwy na 4 Mn. erthyglau sy'n cynnwys 1.9 Bn. gair sy'n cynnwys geiriau ac ymadroddion yn ogystal â pharagraffau. | Cyswllt | |
NLP | Testun | Banc Coed Sentiment Standford | Adloniant | Dadansoddiad Sentiment | Set ddata anodiadau sentiment ar gyfer dros 10,000 o ddarnau o adolygiadau gan Rotten Tomatoes ar ffurf ffeil HTML | Cyswllt |
NLP | Testun | Sentiment Twitter Airline yr UD | Airline | Dadansoddiad Sentiment | Tweets 2015 ar US Airlines wedi'u didoli i arlliwiau cadarnhaol, negyddol a niwtral | Cyswllt |
CV | delwedd | Delweddnet | cyffredinol | Set ddata gyda dros 14 Mn. delweddau mewn sawl fformat ffeil, wedi'u trefnu yn ôl hierarchaeth WordNet. | Cyswllt | |
CV | delwedd | Delweddau Agored Google | cyffredinol | 9 Mn. URLau i gategoreiddio delweddau cyhoeddus o dros 6,000 o gategorïau. | Cyswllt | |
NLP | Testun | Cronfa Ddata Gofal Critigol MIMIC | Gofal Iechyd | Setiau Data Ffisioleg Gyfrifiadurol gyda data heb ei nodi gan 40,000 o gleifion gofal critigol. Mae'r set ddata yn cynnwys gwybodaeth fel demograffeg, arwyddion hanfodol, meddyginiaethau, ac ati. | Cyswllt | |
CV | delwedd | Swyddfa Teithio a Thwristiaeth Genedlaethol yr UD | Twristiaeth | Mae'n darparu ffotograffau eang o'r diwydiant twristiaeth gyda chronfeydd data dibynadwy, sy'n ymdrin â phynciau fel teithio i mewn ac allan a gwybodaeth i dwristiaid rhyngwladol. | Cyswllt | |
NLP | Testun | Adran Drafnidiaeth | Twristiaeth | Setiau data twristiaeth sy'n cynnwys Parciau Cenedlaethol, cofrestrau gyrwyr, pontydd a gwybodaeth reilffordd ac ati. | Cyswllt | |
NLP | sain | Corpws Capsiwn Sain Flickr | cyffredinol | Dros 40k o gapsiynau llafar o 8,000 o ffotograffau wedi'u cynllunio ar gyfer patrymau lleferydd heb oruchwyliaeth | Cyswllt | |
NLP | sain | Set Ddata Gorchmynion Lleferydd | cyffredinol | Cydnabod Lleferydd, Anodi Sain | 1 eiliad o eiriau hir gan filoedd o unigolion, i adeiladu rhyngwyneb llais sylfaenol. | Cyswllt |
NLP | sain | Setiau Data Sain Amgylcheddol | cyffredinol | Setiau data sain yr amgylchedd sy'n cynnwys tablau sain digwyddiadau a thablau golygfeydd acwstig. | Cyswllt | |
NLP | Testun | Set Ddata Ymchwil Agored COVID-19 | Gofal Iechyd | AI Meddygol | Set ddata ymchwil sy'n cynnwys 45,000 o erthyglau ysgolheigaidd ar COVID-19 a'r teulu coronafirws o firysau. | Cyswllt |
CV | delwedd | Set Ddata Agored Waymo | Diwydiant Ceir | Y setiau data gyrru ymreolaethol mwyaf amrywiol a ryddhawyd gan Waymo | Cyswllt | |
CV | delwedd | Labelme | Llywodraeth Gyhoeddus. | Set fawr o ddelweddau anodedig y gellir eu cyrraedd trwy'r Labelme Matlab | Cyswllt | |
CV | delwedd | Set Ddata Cŵn Stanford | cyffredinol | Mae dros 20,500+ o ddelweddau wedi'u categoreiddio i set ddelwedd o 120 o wahanol fridiau cŵn | Cyswllt | |
CV | delwedd | Cydnabod Golygfa Dan Do. | cyffredinol | Cydnabod Golygfa | Set ddata benodol yn cynnwys 15620 o ddelweddau o 67 categori dan do i adeiladu modelau adnabod golygfa | Cyswllt |
CV | delwedd | GweledolQA | cyffredinol | Set ddata sy'n cynnwys cwestiynau penagored yn ymwneud â 265,016 o luniau sy'n gofyn am ddealltwriaeth o weledigaeth a deall iaith i ymateb. | Cyswllt | |
NLP | Testun | Set Ddata Dadansoddi Sentiment Multidomain | E-fasnach | Dadansoddiad Sentiment | Set ddata sy'n cynnwys adolygiadau cynnyrch o Amazon | Cyswllt |
NLP | Testun | Adolygiadau IMDB | Adloniant | Dadansoddiad Sentiment | Set ddata sy'n cynnwys adolygiad ffilm 25000 ar gyfer dadansoddi teimladau | Cyswllt |
NLP | Testun | Corpws Blogger | cyffredinol | Ananlysis Allweddell | Set ddata sy'n cynnwys 681,288 o bostiadau blog o blogger.com sy'n cynnwys o leiaf 200 o eiriau Saesneg a ddefnyddir yn helaeth. | Cyswllt |
NLP | Testun | Perygl | cyffredinol | Hyfforddiant Chatbot | Set ddata gyda mwy na 200,000 o gwestiynau y gellir eu defnyddio i hyfforddi modelau dysgu peiriannau i ymateb yn ddeallus yn ddeallus | Cyswllt |
NLP | Testun | Casgliad Sbam SMS yn Saesneg | Telecom | Cydnabod Sbam | Set ddata negeseuon sbam sy'n cynnwys 5,574 SMS Saesneg | Cyswllt |
NLP | Testun | Adolygiadau Yelp | cyffredinol | Dadansoddiad Sentiment | Set ddata gydag adolygiad dros 5 mn wedi'i chyhoeddi gan Yelp | Cyswllt |
NLP | Testun | Spambase UCI | Menter | Cydnabod Sbam | Set ddata fawr o e-byst sbam, sy'n ddefnyddiol ar gyfer hidlo sbam. | Cyswllt |
CV | Fideo, Delwedd | Berkeley DeepDrive BDD100k | Diwydiant Ceir | Cerbydau Ymreolaethol | Un o'r set ddata fwyaf ar gyfer AI hunan-yrru sy'n cynnwys 1,100-awr o brofiadau gyrru mewn dros 100,000 o fideos o wahanol adegau o'r dydd o ardal Efrog Newydd a San Francisco. | Cyswllt |
CV | fideo | Coma.ai | Diwydiant Ceir | Cerbydau Ymreolaethol | Set ddata gyrru priffyrdd 7 awr sy'n cynnwys gwybodaeth am gyflymder car, cyflymiad, ongl lywio a chyfesurynnau GPS | Cyswllt |
CV | Fideo, Delwedd | Set Ddata Cityscape | Diwydiant Ceir | Label Semantig ar gyfer Cerbyd Ymreolaethol | Set ddata o 5,000 o anodiadau ar lefel picsel ynghyd â set fwy o 20,000 o fframiau wedi'u hanodi'n wan mewn dilyniannau fideo stereo, wedi'u recordio o 50 o wahanol ddinasoedd. | Cyswllt |
CV | delwedd | Set Ddata Arwydd Traffig KUL Gwlad Belg | Diwydiant Ceir | Cerbydau Ymreolaethol | Dros 10000+ o anodiadau arwyddion traffig o ranbarth Fflandrys yn seiliedig ar arwyddion traffig sy'n wahanol yn gorfforol o bob rhan o Wlad Belg. | Cyswllt |
CV | delwedd | LISA: Labordy ar gyfer Automobiles Deallus a Diogel, Setiau Data UC San Diego | Diwydiant Ceir | Cerbydau Ymreolaethol | Set ddata gyfoethog sy'n cynnwys arwyddion traffig, canfod cerbydau, goleuadau traffig a phatrymau taflwybr. | Cyswllt |
CV | delwedd | CIFAR-10 | cyffredinol | Cydnabod Gwrthrych | Set ddata sy'n cynnwys 50,000 o ddelweddau a 10,000 o ddelweddau prawf (hy 60,000 o ddelweddau lliw 32 × 32 mewn 10 dosbarth) ar gyfer adnabod gwrthrychau. | Cyswllt |
CV | delwedd | Ffasiwn MNIST | Ffasiwn | Set ddata o ddelweddau sy'n cynnwys 60,000 o enghreifftiau a set brawf o 10,000 o enghreifftiau mewn delweddau graddfa 28 × 28, sy'n gysylltiedig â label o 10 dosbarth. | Cyswllt | |
CV | delwedd | Set Ddata IMDB-Wiki | Adloniant | Cydnabyddiaeth wyneb | Set ddata fawr o ddelweddau wyneb gyda labeli fel rhyw ac oedran. O'r cyfanswm o 523,051 o ddelweddau wyneb, ceir 460,723 o ddelweddau gan 20,284 o enwogion gan IMDB a 62,328 o Wikipedia. | Cyswllt |
CV | fideo | Cineteg-700 | cyffredinol | Ar gyfer pob dosbarth gweithredu, mae'r set ddata o ansawdd uchel yn cynnwys 650,000 o glipiau fideo ac mae'n cwmpasu 700 o ddosbarthiadau gweithredu dynol gydag o leiaf 600 o glipiau fideo. Yma, mae pob clip yn para tua 10 eiliad. | Cyswllt | |
CV | delwedd | MS Coco | cyffredinol | Canfod gwrthrychau, Segmentu | Mae'r set ddata yn cynnwys delweddau 328k ac mae ganddo gyfanswm o 2.5 Mn achos a 91 delwedd gwrthrych i hyfforddi canfod gwrthrychau ar raddfa fawr, segmentu, a chapsiynu data ML. | Cyswllt |
CV | delwedd | Set Ddata Pose Dynol MPII | cyffredinol | Mae tua 25K o ffotograffau sy'n cynnwys dros 40K o unigolion â chymalau corff anodedig wedi'u cynnwys yn y set ddata, a ddefnyddir i fynegi amcangyfrif ystumiau dynol. At ei gilydd, mae'r set ddata yn cynnwys 410 o weithgareddau dynol a darperir label gweithgaredd ar gyfer pob delwedd. | Cyswllt | |
CV | delwedd | Delweddau Agored | cyffredinol | Gwrthwynebu anodiadau lleoliad | Set ddata delweddau gyda thua 9 delwedd Mn wedi'u hanodi â labeli lefel delwedd, blychau rhwymo gwrthrychau, cylchraniad gwrthrychau ac ati. Mae'r set ddata hefyd yn cynnwys 16 Mn. blychau rhwymo ar gyfer 600 o ddosbarthiadau gwrthrychau ar ddelweddau 1.9 Mn. | Cyswllt |
CV | Fideo, Delwedd | Argo, gan Argo, UDA | Diwydiant Ceir | Blwch Rhwymo, Llif Optegol, Label Ymddygiadol, Label Semantig, Marcio Lôn | Set ddata hunan-yrru sy'n cynnwys mapiau HD gyda metadata geometrig a semantig hy canolbwyntiau lôn, cyfeiriad lôn, ac ardal y gellir ei gyrru. Defnyddir y set ddata i hyfforddi modelau ML, i wneud algorithmau canfyddiad mwy cywir, a fydd yn helpu cerbydau hunan-yrru i lywio'n ddiogel. | Cyswllt |
CV | fideo | Goleuadau Traffig Bach Bosch, gan Bosch Gogledd America Research | Diwydiant Ceir | Blwch Rhwymo | Set ddata sy'n cynnwys 13427 o ddelweddau camera gyda phenderfyniad 1280 * 720 i adeiladu system canfod goleuadau traffig ar sail gweledigaeth. Mae gan y set ddata fwy na 24000 o oleuadau traffig anodedig. | Cyswllt |
CV | fideo | Brain4Cars, gan Cornell Univ., Unol Daleithiau | Diwydiant Ceir | Label Ymddygiadol | Set ddata sy'n cynnwys amrywiaeth o synwyryddion caban (camerâu, synwyryddion cyffyrddol, dyfeisiau clyfar, ac ati) er mwyn tynnu ystadegau defnyddiol ynghylch bywiogrwydd gyrwyr. Efallai y bydd ein algorithmau yn canfod gyrwyr sy'n gysglyd neu'n tynnu sylw ac yn rhoi hwb i'r larymau angenrheidiol i wella amddiffyniad. | Cyswllt |
CV | delwedd | CULane, gan Chinese Univ. o Hong Kong, Beijing, China | Diwydiant Ceir | Marcio Lôn | Tynnwyd set ddata Computer Vision ar ganfod lôn draffig, gan gynnwys 55 awr o fideos, a thynnwyd 133,235 (set hyfforddi 88880, set ddilysu 9675, a 34680 set prawf). Mae'n cael ei gasglu gan gamerâu wedi'u gosod ar chwe cherbyd gwahanol sy'n cael eu gyrru gan wahanol yrwyr yn Beijing. | Cyswllt |
CV | fideo | DAVIS, gan Univ. o Zurich, ETH ¨ Zurich, yr Almaen, y Swistir | Diwydiant Ceir | Set ddata hyfforddi gyrru cerbyd o'r dechrau i'r diwedd sy'n defnyddio camera ffrâm + digwyddiad DAVIS. Defnyddir data ceir fel llywio, llindag, GPS, ac ati i werthuso ymasiad data ffrâm a digwyddiad ar gyfer apiau modurol. | Cyswllt | |
CV | fideo | DBNet, gan Shanghai Jiao Tong Univ., Xiamen Univ., China | Diwydiant Ceir | Cloud Cloud, LiDAR | Data gyrru 1000 KM yn y byd go iawn, sy'n cynnwys fideo wedi'i alinio, cwmwl pwynt, GPS ac ymddygiad gyrwyr ar gyfer ymchwil manwl ar ymddygiadau gyrru. | Cyswllt |
CV | fideo | Dr (llygad) ve, gan Univ. o Modena a Reggio Emilia, Modena, yr Eidal | Diwydiant Ceir | Label Ymddygiadol | Set ddata sy'n cynnwys 74 o ddilyniannau fideo o 5 munud yr un, a gafodd eu hanodi mewn mwy na 500,000 o fframiau. Mae'r set ddata yn cynnwys lleoliadau Geo-gyfeiriedig, cyflymder gyrru, cwrs, a hefyd labeli gyrwyr yn syllu gosodiadau a'u hintegreiddio amserol gan ddarparu mapiau tasg-benodol. | Cyswllt |
CV | fideo | ETH Pedestrian (2009), gan ETH Zurich, Zurich, y Swistir | cyffredinol | Blwch Rhwymo | Set ddata o 74 o ddilyniannau fideo o 5 munud yr un, wedi'u hanodi mewn mwy na 500,000 o fframiau. Mae'r set ddata yn darparu safleoedd geo-gyfeiriedig, cyflymder gyrru, cyfeiriad, a hefyd labeli gosodiadau syllu ar yrwyr a'u hintegreiddio amserol, gan gynnwys mapiau tasg-benodol. | Cyswllt |
CV | fideo | Ford (2009), gan Univ. o Michigan, Michigan, U.S. | Diwydiant Ceir | Blwch Rhwymo ,, LiDAR | Set ddata a luniwyd gan gerbyd tir awtomataidd wedi'i arfogi â sganiwr 3D-lidar Velodyne, dau gaead Rieg gwthio ymlaen llaw, Uned Mesur Anadweithiol dechnegol a defnyddiwr (IMU), a system gamera omnidirectional Point Grey Ladybug3. | Cyswllt |
CV | fideo | Stereo Heriol HCI, Ymchwil Gorfforaeth Bosch, Hildesheim, yr Almaen | cyffredinol | Set ddata o sawl miliwn o fframiau o olygfeydd fideo wedi'u dal sy'n cynnwys ystod eang o amodau tywydd amrywiol, haenau lluosog o symud a dyfnder; sefyllfaoedd yn y ddinas a chefn gwlad, ac ati. | Cyswllt | |
CV | fideo | JAAD, gan Brifysgol Efrog, yr Wcrain, Canada | Diwydiant Ceir | Blwch Rhwymo, Label Ymddygiadol | "Mae JAAD yn set ddata ar gyfer astudio sylw ar y cyd yng nghyd-destun gyrru ymreolaethol. Mae'r ffocws ar ymddygiadau cerddwyr a gyrwyr ar y pwynt croesi a ffactorau sy'n dylanwadu arnynt. I'r perwyl hwn, mae set ddata JAAD yn darparu casgliad anodedig cyfoethog o 346 fideo byr clipiau (5-10 eiliad o hyd) wedi'u tynnu o dros 240 awr o luniau gyrru o sawl lleoliad yng Ngogledd America a Dwyrain Ewrop. Defnyddir blychau rhwymo gyda thagiau ocwlsiwn ar gyfer pob cerddwr sy'n gwneud y set ddata hon yn addas ar gyfer canfod cerddwyr. Mae anodiadau ymddygiad yn nodi ymddygiadau ar gyfer cerddwyr. sy'n rhyngweithio â'r gyrrwr neu'n gofyn am sylw'r gyrrwr. Ar gyfer pob fideo mae sawl tag (tywydd, lleoliadau, ac ati) a labeli ymddygiad wedi'u hamserlennu (ee stopio, cerdded, edrych, ac ati). Yn ogystal, rhestr o briodoleddau demograffig yw a ddarperir ar gyfer pob cerddwr (ee oedran, rhyw, cyfeiriad y cynnig, ac ati) ynghyd â rhestr o elfennau golygfa traffig gweladwy (ee arwydd stop, signal traffig, ac ati) ym mhob ffrâm. " | Cyswllt |
CV | delwedd | Arwydd Traffig LISA, gan Univ. o California, San Diego, Unol Daleithiau | Diwydiant Ceir | Blwch Rhwymo | Y set o set ddata sy'n cynnwys fideos a fframiau anodedig sy'n cynnwys arwyddion traffig yr UD. Fe'i rhyddheir mewn dau gam, un gyda dim ond y lluniau ac un gyda lluniau a fideos. | Cyswllt |
CV | delwedd | Mapillary Vistas, gan Mapillary AB, Global | Diwydiant Ceir | Label Semantig | Set ddata ffotograffiaeth ar lefel stryd ar gyfer dehongli golygfeydd stryd ledled y byd gydag anodiadau dynol sy'n gywir mewn picsel ac yn benodol i enghraifft. | Cyswllt |
CV | Fideo, Delwedd | KITTI Semantig, gan Brifysgol Bonn, Karlsruhe, yr Almaen | Diwydiant Ceir | Blwch Rhwymo, Label Semantig, Marcio Lôn | Set ddata sy'n cynnwys anodiad semantig ar gyfer pob dilyniant Meincnod Odometreg. Mae'r set ddata yn anodi gwahanol fathau o draffig symudol a symudol: gan gynnwys ceir, beiciau, beiciau, cerddwyr a beicwyr, gan ganiatáu i wrthrychau yn yr olygfa gael eu hastudio. | Cyswllt |
CV | fideo | Stanford Track, gan Stanford Univ., Unol Daleithiau | Diwydiant Ceir | Canfod / Dosbarthu Gwrthrych LiDAR, GPS, Codau | Set ddata sy'n cynnwys 14,000 o draciau gwrthrychau wedi'u labelu fel y'u gwelwyd gan LIDAR Velodyne HDL-64E S2 mewn golygfeydd stryd naturiol, y gellir eu defnyddio i hyfforddi modelau dysgu peiriannau ar gyfer Cydnabod Gwrthrychau 3D. | Cyswllt |
CV | Fideo, Delwedd | Set Ddata Boxy, gan Bosch, Unol Daleithiau | Diwydiant Ceir | Blwch Rhwymo / Canfod Cerbydau | Set ddata canfod cerbydau sy'n cynnwys 2 filiwn o gerbydau anodedig ar gyfer hyfforddi a dadansoddi strategaethau adnabod gwrthrychau ar gyfer ceir hunan-yrru ar draffyrdd. | Cyswllt |
CV | fideo | Traffordd TME, gan Tsiec Technegol Univ., Gogledd yr Eidal | Diwydiant Ceir | Blwch Rhwymo | Set ddata o 28 clip am gyfanswm o 27 munud wedi'i bifurcated i mewn i 30,000+ o fframiau anodi cerbydau. Cynhyrchwyd anodi yn lled-awtomatig gan ddefnyddio'r data o'r sganiwr laser. Mae'r casgliad data hwn yn cynnwys senarios traffig amrywiol, nifer y lonydd, crymedd ffyrdd a goleuo, gan gwmpasu llawer o amodau'r caffaeliad llawn. | Cyswllt |
CV | fideo | Llamas heb oruchwyliaeth, gan Bosch, Unol Daleithiau | Diwydiant Ceir | Marcio Lôn, LiDAR | Anodwyd set ddata Llamas heb Oruchwyliaeth trwy gynhyrchu mapiau gyrru awtomatig diffiniad uchel, gan gynnwys marcwyr lôn wedi'u seilio ar Lidar. Gellir alinio'r cerbyd ymreolaethol yn erbyn y mapiau hyn a thaflir marciau'r lôn i mewn i ffrâm y camera. Gwneir y gorau o'r amcanestyniad 3D trwy leihau'r anghysondeb rhwng marcwyr delwedd a arsylwyd eisoes a'r rhai a ragwelir. | Cyswllt |
NLP | sain | LibriSpeech Amlieithog Facebook AI (MLS) | cyffredinol | Anodi Sain / Cydnabod Lleferydd | Mae Facebook AI Multilingual LibriSpeech (MLS), yn set ddata ffynhonnell agored ar raddfa fawr sydd wedi'i chynllunio i helpu i ddatblygu ymchwil mewn adnabod lleferydd yn awtomatig (ASR). Mae MLS yn darparu mwy na 50,000 awr o sain ar draws 8 iaith: Saesneg, Almaeneg, Iseldireg, Ffrangeg, Sbaeneg, Eidaleg, Portiwgaleg a Phwyleg. | Cyswllt |