Setiau Data Agored

Darganfyddwch setiau data ffynhonnell agored sy'n eich galluogi i fynd i hyfforddi modelau ML

Setiau Data Agored

Setiau Data Ffynhonnell Agored I'ch Dechrau Chi gyda Modelau AI / ML

Nid yw allbwn eich modelau AI & ML cystal â'r data rydych chi'n ei ddefnyddio i'w hyfforddi - felly mae'r manwl gywirdeb rydych chi'n ei gymhwyso i gydgrynhoi data a thagio ac adnabod y data hwnnw yn bwysig!

Felly os ydych chi am gychwyn menter AI / ML newydd ac yn awr rydych chi'n sylweddoli'n gyflym y bydd dod o hyd i ddata hyfforddi o ansawdd uchel yn un o agweddau mwy heriol eich prosiect gan mai setiau data o ansawdd uchel yw'r tanwydd sy'n cadw'r AI / Peiriant ML yn rhedeg. Rydym wedi cronni rhestr o setiau data agored sy'n rhad ac am ddim i'w defnyddio a'u hyfforddi i'ch modelau AI / ML yn y dyfodol.

arbenigoMath o DdataEnw'r Set DdataDiwydiant / Adran.Achos Anodi / DefnyddDisgrifiadCyswllt
NLPTestunAdolygiadau AmazonE-fasnachDadansoddiad SentimentSet o adolygiadau a graddfeydd 35 Mn dros y 18 mlynedd diwethaf mewn testun plaen gyda manylion y defnyddiwr a'r cynnyrch.Cyswllt
NLPTestunData Cysylltiadau WikipediacyffredinolMwy na 4 Mn. erthyglau sy'n cynnwys 1.9 Bn. gair sy'n cynnwys geiriau ac ymadroddion yn ogystal â pharagraffau.Cyswllt
NLPTestunBanc Coed Sentiment StandfordAdloniantDadansoddiad SentimentSet ddata anodiadau sentiment ar gyfer dros 10,000 o ddarnau o adolygiadau gan Rotten Tomatoes ar ffurf ffeil HTMLCyswllt
NLPTestunSentiment Twitter Airline yr UDAirlineDadansoddiad SentimentTweets 2015 ar US Airlines wedi'u didoli i arlliwiau cadarnhaol, negyddol a niwtralCyswllt
CVdelwedd Wynebau wedi'u Labelu Yn Y GwylltcyffredinolCydnabyddiaeth wynebSet ddata sy'n cynnwys dros 13,000 o wynebau wedi'u cnydio gyda dau lun gwahanol ar gyfer hyfforddiant adnabod wynebau.Cyswllt
CVFideo, DelweddSet Ddata UMDFacescyffredinolCydnabyddiaeth wynebSet ddata anodedig yn cynnwys dros 367,000 o wynebau o dros 8,000 o bynciau sy'n cynnwys delweddau llonydd a fideo.Cyswllt
CVdelwedd DelweddnetcyffredinolSet ddata gyda dros 14 Mn. delweddau mewn sawl fformat ffeil, wedi'u trefnu yn ôl hierarchaeth WordNet.Cyswllt
CVdelwedd Delweddau Agored Googlecyffredinol9 Mn. URLau i gategoreiddio delweddau cyhoeddus o dros 6,000 o gategorïau.Cyswllt
NLPTestunCronfa Ddata Gofal Critigol MIMICGofal IechydSetiau Data Ffisioleg Gyfrifiadurol gyda data heb ei nodi gan 40,000 o gleifion gofal critigol. Mae'r set ddata yn cynnwys gwybodaeth fel demograffeg, arwyddion hanfodol, meddyginiaethau, ac ati.Cyswllt
CVdelweddSwyddfa Teithio a Thwristiaeth Genedlaethol yr UDTwristiaethMae'n darparu ffotograffau eang o'r diwydiant twristiaeth gyda chronfeydd data dibynadwy, sy'n ymdrin â phynciau fel teithio i mewn ac allan a gwybodaeth i dwristiaid rhyngwladol.Cyswllt
NLPTestunAdran DrafnidiaethTwristiaethSetiau data twristiaeth sy'n cynnwys Parciau Cenedlaethol, cofrestrau gyrwyr, pontydd a gwybodaeth reilffordd ac ati.Cyswllt
NLPsainCorpws Capsiwn Sain FlickrcyffredinolDros 40k o gapsiynau llafar o 8,000 o ffotograffau wedi'u cynllunio ar gyfer patrymau lleferydd heb oruchwyliaethCyswllt
NLPsainSet Ddata Gorchmynion LleferyddcyffredinolCydnabod Lleferydd, Anodi Sain1 eiliad o eiriau hir gan filoedd o unigolion, i adeiladu rhyngwyneb llais sylfaenol.Cyswllt
NLPsainSetiau Data Sain AmgylcheddolcyffredinolSetiau data sain yr amgylchedd sy'n cynnwys tablau sain digwyddiadau a thablau golygfeydd acwstig.Cyswllt
NLPTestunSet Ddata Ymchwil Agored COVID-19 Gofal IechydAI MeddygolSet ddata ymchwil sy'n cynnwys 45,000 o erthyglau ysgolheigaidd ar COVID-19 a'r teulu coronafirws o firysau.Cyswllt
CVdelweddSet Ddata Agored Waymo Diwydiant Ceir Y setiau data gyrru ymreolaethol mwyaf amrywiol a ryddhawyd gan WaymoCyswllt
CVdelweddGenom Gweledol cyffredinolPennawd DelweddSylfaen wybodaeth weledol gyda chapsiwn manwl o dros 100K o ddelweddauCyswllt
CVdelweddLabelme Llywodraeth Gyhoeddus.Set fawr o ddelweddau anodedig y gellir eu cyrraedd trwy'r Labelme MatlabCyswllt
CVdelweddCOIL100cyffredinolTynnwyd dros 100 o wrthrychau amrywiol o sawl ongl (hy 360 gradd)Cyswllt
CVdelweddSet Ddata Cŵn StanfordcyffredinolMae dros 20,500+ o ddelweddau wedi'u categoreiddio i set ddelwedd o 120 o wahanol fridiau cŵnCyswllt
CVdelweddCydnabod Golygfa Dan Do.cyffredinolCydnabod GolygfaSet ddata benodol yn cynnwys 15620 o ddelweddau o 67 categori dan do i adeiladu modelau adnabod golygfaCyswllt
CVdelweddGweledolQAcyffredinolSet ddata sy'n cynnwys cwestiynau penagored yn ymwneud â 265,016 o luniau sy'n gofyn am ddealltwriaeth o weledigaeth a deall iaith i ymateb.Cyswllt
NLPTestunSet Ddata Dadansoddi Sentiment MultidomainE-fasnachDadansoddiad SentimentSet ddata sy'n cynnwys adolygiadau cynnyrch o AmazonCyswllt
NLPTestunAdolygiadau IMDBAdloniantDadansoddiad SentimentSet ddata sy'n cynnwys adolygiad ffilm 25000 ar gyfer dadansoddi teimladauCyswllt
NLPTestunTeimlad140cyffredinolDadansoddiad SentimentSet ddata sy'n cynnwys 160,000 o drydariadau gydag emosiynau wedi'u tynnu ymlaen llaw er mwyn cywirdeb uwchCyswllt
NLPTestunCorpws BloggercyffredinolAnanlysis AllweddellSet ddata sy'n cynnwys 681,288 o bostiadau blog o blogger.com sy'n cynnwys o leiaf 200 o eiriau Saesneg a ddefnyddir yn helaeth.Cyswllt
NLPTestunPeryglcyffredinolHyfforddiant ChatbotSet ddata gyda mwy na 200,000 o gwestiynau y gellir eu defnyddio i hyfforddi modelau dysgu peiriannau i ymateb yn ddeallus yn ddeallusCyswllt
NLPTestunCasgliad Sbam SMS yn SaesnegTelecomCydnabod SbamSet ddata negeseuon sbam sy'n cynnwys 5,574 SMS SaesnegCyswllt
NLPTestunAdolygiadau YelpcyffredinolDadansoddiad SentimentSet ddata gydag adolygiad dros 5 mn wedi'i chyhoeddi gan YelpCyswllt
NLPTestunSpambase UCIMenterCydnabod SbamSet ddata fawr o e-byst sbam, sy'n ddefnyddiol ar gyfer hidlo sbam.Cyswllt
CVFideo, DelweddBerkeley DeepDrive BDD100kDiwydiant Ceir Cerbydau YmreolaetholUn o'r set ddata fwyaf ar gyfer AI hunan-yrru sy'n cynnwys 1,100-awr o brofiadau gyrru mewn dros 100,000 o fideos o wahanol adegau o'r dydd o ardal Efrog Newydd a San Francisco.Cyswllt
CVfideoComa.aiDiwydiant Ceir Cerbydau Ymreolaethol Set ddata gyrru priffyrdd 7 awr sy'n cynnwys gwybodaeth am gyflymder car, cyflymiad, ongl lywio a chyfesurynnau GPSCyswllt
CVFideo, DelweddSet Ddata CityscapeDiwydiant Ceir Label Semantig ar gyfer Cerbyd YmreolaetholSet ddata o 5,000 o anodiadau ar lefel picsel ynghyd â set fwy o 20,000 o fframiau wedi'u hanodi'n wan mewn dilyniannau fideo stereo, wedi'u recordio o 50 o wahanol ddinasoedd.Cyswllt
CVdelweddSet Ddata Arwydd Traffig KUL Gwlad BelgDiwydiant Ceir Cerbydau YmreolaetholDros 10000+ o anodiadau arwyddion traffig o ranbarth Fflandrys yn seiliedig ar arwyddion traffig sy'n wahanol yn gorfforol o bob rhan o Wlad Belg.Cyswllt
CVdelweddLISA: Labordy ar gyfer Automobiles Deallus a Diogel, Setiau Data UC San DiegoDiwydiant Ceir Cerbydau YmreolaetholSet ddata gyfoethog sy'n cynnwys arwyddion traffig, canfod cerbydau, goleuadau traffig a phatrymau taflwybr.Cyswllt
CVdelweddCIFAR-10cyffredinolCydnabod GwrthrychSet ddata sy'n cynnwys 50,000 o ddelweddau a 10,000 o ddelweddau prawf (hy 60,000 o ddelweddau lliw 32 × 32 mewn 10 dosbarth) ar gyfer adnabod gwrthrychau.Cyswllt
CVdelweddFfasiwn MNISTFfasiwnSet ddata o ddelweddau sy'n cynnwys 60,000 o enghreifftiau a set brawf o 10,000 o enghreifftiau mewn delweddau graddfa 28 × 28, sy'n gysylltiedig â label o 10 dosbarth.Cyswllt
CVdelweddSet Ddata IMDB-WikiAdloniantCydnabyddiaeth wynebSet ddata fawr o ddelweddau wyneb gyda labeli fel rhyw ac oedran. O'r cyfanswm o 523,051 o ddelweddau wyneb, ceir 460,723 o ddelweddau gan 20,284 o enwogion gan IMDB a 62,328 o Wikipedia.Cyswllt
CVfideoCineteg-700cyffredinolAr gyfer pob dosbarth gweithredu, mae'r set ddata o ansawdd uchel yn cynnwys 650,000 o glipiau fideo ac mae'n cwmpasu 700 o ddosbarthiadau gweithredu dynol gydag o leiaf 600 o glipiau fideo. Yma, mae pob clip yn para tua 10 eiliad.Cyswllt
CVdelweddMS CococyffredinolCanfod gwrthrychau, SegmentuMae'r set ddata yn cynnwys delweddau 328k ac mae ganddo gyfanswm o 2.5 Mn achos a 91 delwedd gwrthrych i hyfforddi canfod gwrthrychau ar raddfa fawr, segmentu, a chapsiynu data ML.Cyswllt
CVdelweddSet Ddata Pose Dynol MPIIcyffredinolMae tua 25K o ffotograffau sy'n cynnwys dros 40K o unigolion â chymalau corff anodedig wedi'u cynnwys yn y set ddata, a ddefnyddir i fynegi amcangyfrif ystumiau dynol. At ei gilydd, mae'r set ddata yn cynnwys 410 o weithgareddau dynol a darperir label gweithgaredd ar gyfer pob delwedd.Cyswllt
CVdelweddDelweddau AgoredcyffredinolGwrthwynebu anodiadau lleoliadSet ddata delweddau gyda thua 9 delwedd Mn wedi'u hanodi â labeli lefel delwedd, blychau rhwymo gwrthrychau, cylchraniad gwrthrychau ac ati. Mae'r set ddata hefyd yn cynnwys 16 Mn. blychau rhwymo ar gyfer 600 o ddosbarthiadau gwrthrychau ar ddelweddau 1.9 Mn.Cyswllt
CVfideoLlwyfan Agored Apollo, gan Baidu Inc, ChinaDiwydiant Ceir Blwch Rhwymo, LiDARSet ddata gyrru ymreolaethol gyfoethog, sy'n darparu'r data gofynnol i ddatblygwyr mewn gyrru ymreolaethol i gyflymu effeithlonrwydd yr iteriad arloesol.Cyswllt
CVFideo, DelweddArgo, gan Argo, UDADiwydiant Ceir Blwch Rhwymo, Llif Optegol, Label Ymddygiadol, Label Semantig, Marcio LônSet ddata hunan-yrru sy'n cynnwys mapiau HD gyda metadata geometrig a semantig hy canolbwyntiau lôn, cyfeiriad lôn, ac ardal y gellir ei gyrru. Defnyddir y set ddata i hyfforddi modelau ML, i wneud algorithmau canfyddiad mwy cywir, a fydd yn helpu cerbydau hunan-yrru i lywio'n ddiogel.Cyswllt
CVfideoGoleuadau Traffig Bach Bosch, gan Bosch Gogledd America ResearchDiwydiant Ceir Blwch RhwymoSet ddata sy'n cynnwys 13427 o ddelweddau camera gyda phenderfyniad 1280 * 720 i adeiladu system canfod goleuadau traffig ar sail gweledigaeth. Mae gan y set ddata fwy na 24000 o oleuadau traffig anodedig.Cyswllt
CVfideoBrain4Cars, gan Cornell Univ., Unol DaleithiauDiwydiant Ceir Label YmddygiadolSet ddata sy'n cynnwys amrywiaeth o synwyryddion caban (camerâu, synwyryddion cyffyrddol, dyfeisiau clyfar, ac ati) er mwyn tynnu ystadegau defnyddiol ynghylch bywiogrwydd gyrwyr. Efallai y bydd ein algorithmau yn canfod gyrwyr sy'n gysglyd neu'n tynnu sylw ac yn rhoi hwb i'r larymau angenrheidiol i wella amddiffyniad.Cyswllt
CVdelweddCULane, gan Chinese Univ. o Hong Kong, Beijing, ChinaDiwydiant Ceir Marcio LônTynnwyd set ddata Computer Vision ar ganfod lôn draffig, gan gynnwys 55 awr o fideos, a thynnwyd 133,235 (set hyfforddi 88880, set ddilysu 9675, a 34680 set prawf). Mae'n cael ei gasglu gan gamerâu wedi'u gosod ar chwe cherbyd gwahanol sy'n cael eu gyrru gan wahanol yrwyr yn Beijing.Cyswllt
CVfideoDAVIS, gan Univ. o Zurich, ETH ¨ Zurich, yr Almaen, y SwistirDiwydiant Ceir Set ddata hyfforddi gyrru cerbyd o'r dechrau i'r diwedd sy'n defnyddio camera ffrâm + digwyddiad DAVIS. Defnyddir data ceir fel llywio, llindag, GPS, ac ati i werthuso ymasiad data ffrâm a digwyddiad ar gyfer apiau modurol.Cyswllt
CVfideoDBNet, gan Shanghai Jiao Tong Univ., Xiamen Univ., ChinaDiwydiant Ceir Cloud Cloud, LiDARData gyrru 1000 KM yn y byd go iawn, sy'n cynnwys fideo wedi'i alinio, cwmwl pwynt, GPS ac ymddygiad gyrwyr ar gyfer ymchwil manwl ar ymddygiadau gyrru.Cyswllt
CVfideoDr (llygad) ve, gan Univ. o Modena a Reggio Emilia, Modena, yr EidalDiwydiant Ceir Label YmddygiadolSet ddata sy'n cynnwys 74 o ddilyniannau fideo o 5 munud yr un, a gafodd eu hanodi mewn mwy na 500,000 o fframiau. Mae'r set ddata yn cynnwys lleoliadau Geo-gyfeiriedig, cyflymder gyrru, cwrs, a hefyd labeli gyrwyr yn syllu gosodiadau a'u hintegreiddio amserol gan ddarparu mapiau tasg-benodol.Cyswllt
CVfideoETH Pedestrian (2009), gan ETH Zurich, Zurich, y SwistircyffredinolBlwch RhwymoSet ddata o 74 o ddilyniannau fideo o 5 munud yr un, wedi'u hanodi mewn mwy na 500,000 o fframiau. Mae'r set ddata yn darparu safleoedd geo-gyfeiriedig, cyflymder gyrru, cyfeiriad, a hefyd labeli gosodiadau syllu ar yrwyr a'u hintegreiddio amserol, gan gynnwys mapiau tasg-benodol.Cyswllt
CVfideoFord (2009), gan Univ. o Michigan, Michigan, U.S.Diwydiant Ceir Blwch Rhwymo ,, LiDARSet ddata a luniwyd gan gerbyd tir awtomataidd wedi'i arfogi â sganiwr 3D-lidar Velodyne, dau gaead Rieg gwthio ymlaen llaw, Uned Mesur Anadweithiol dechnegol a defnyddiwr (IMU), a system gamera omnidirectional Point Grey Ladybug3.Cyswllt
CVfideoStereo Heriol HCI, Ymchwil Gorfforaeth Bosch, Hildesheim, yr AlmaencyffredinolSet ddata o sawl miliwn o fframiau o olygfeydd fideo wedi'u dal sy'n cynnwys ystod eang o amodau tywydd amrywiol, haenau lluosog o symud a dyfnder; sefyllfaoedd yn y ddinas a chefn gwlad, ac ati.Cyswllt
CVfideoJAAD, gan Brifysgol Efrog, yr Wcrain, CanadaDiwydiant Ceir Blwch Rhwymo, Label Ymddygiadol"Mae JAAD yn set ddata ar gyfer astudio sylw ar y cyd yng nghyd-destun gyrru ymreolaethol. Mae'r ffocws ar ymddygiadau cerddwyr a gyrwyr ar y pwynt croesi a ffactorau sy'n dylanwadu arnynt. I'r perwyl hwn, mae set ddata JAAD yn darparu casgliad anodedig cyfoethog o 346 fideo byr clipiau (5-10 eiliad o hyd) wedi'u tynnu o dros 240 awr o luniau gyrru o sawl lleoliad yng Ngogledd America a Dwyrain Ewrop. Defnyddir blychau rhwymo gyda thagiau ocwlsiwn ar gyfer pob cerddwr sy'n gwneud y set ddata hon yn addas ar gyfer canfod cerddwyr. Mae anodiadau ymddygiad yn nodi ymddygiadau ar gyfer cerddwyr. sy'n rhyngweithio â'r gyrrwr neu'n gofyn am sylw'r gyrrwr. Ar gyfer pob fideo mae sawl tag (tywydd, lleoliadau, ac ati) a labeli ymddygiad wedi'u hamserlennu (ee stopio, cerdded, edrych, ac ati). Yn ogystal, rhestr o briodoleddau demograffig yw a ddarperir ar gyfer pob cerddwr (ee oedran, rhyw, cyfeiriad y cynnig, ac ati) ynghyd â rhestr o elfennau golygfa traffig gweladwy (ee arwydd stop, signal traffig, ac ati) ym mhob ffrâm. "Cyswllt
CVfideoKAIST Urban, gan KAIST, De KoreacyffredinolLiDARMae'r casgliad data yn cynnwys nifer o synwyryddion lleoliad ar gyfer data LiDAR a delweddau stereo sy'n targedu ardal drefol gymhleth iawn (ee ardaloedd metropolis, adeiladau cymhleth ac ardaloedd preswyl).Cyswllt
CVdelweddArwydd Traffig LISA, gan Univ. o California, San Diego, Unol DaleithiauDiwydiant Ceir Blwch RhwymoY set o set ddata sy'n cynnwys fideos a fframiau anodedig sy'n cynnwys arwyddion traffig yr UD. Fe'i rhyddheir mewn dau gam, un gyda dim ond y lluniau ac un gyda lluniau a fideos.Cyswllt
CVdelweddMapillary Vistas, gan Mapillary AB, GlobalDiwydiant Ceir Label SemantigSet ddata ffotograffiaeth ar lefel stryd ar gyfer dehongli golygfeydd stryd ledled y byd gydag anodiadau dynol sy'n gywir mewn picsel ac yn benodol i enghraifft.Cyswllt
CVFideo, DelweddKITTI Semantig, gan Brifysgol Bonn, Karlsruhe, yr AlmaenDiwydiant Ceir Blwch Rhwymo, Label Semantig, Marcio LônSet ddata sy'n cynnwys anodiad semantig ar gyfer pob dilyniant Meincnod Odometreg. Mae'r set ddata yn anodi gwahanol fathau o draffig symudol a symudol: gan gynnwys ceir, beiciau, beiciau, cerddwyr a beicwyr, gan ganiatáu i wrthrychau yn yr olygfa gael eu hastudio.Cyswllt
CVfideoStanford Track, gan Stanford Univ., Unol DaleithiauDiwydiant Ceir Canfod / Dosbarthu Gwrthrych LiDAR, GPS, CodauSet ddata sy'n cynnwys 14,000 o draciau gwrthrychau wedi'u labelu fel y'u gwelwyd gan LIDAR Velodyne HDL-64E S2 mewn golygfeydd stryd naturiol, y gellir eu defnyddio i hyfforddi modelau dysgu peiriannau ar gyfer Cydnabod Gwrthrychau 3D.Cyswllt
CVFideo, DelweddSet Ddata Boxy, gan Bosch, Unol DaleithiauDiwydiant Ceir Blwch Rhwymo / Canfod CerbydauSet ddata canfod cerbydau sy'n cynnwys 2 filiwn o gerbydau anodedig ar gyfer hyfforddi a dadansoddi strategaethau adnabod gwrthrychau ar gyfer ceir hunan-yrru ar draffyrdd.Cyswllt
CVfideoTraffordd TME, gan Tsiec Technegol Univ., Gogledd yr EidalDiwydiant Ceir Blwch RhwymoSet ddata o 28 clip am gyfanswm o 27 munud wedi'i bifurcated i mewn i 30,000+ o fframiau anodi cerbydau. Cynhyrchwyd anodi yn lled-awtomatig gan ddefnyddio'r data o'r sganiwr laser. Mae'r casgliad data hwn yn cynnwys senarios traffig amrywiol, nifer y lonydd, crymedd ffyrdd a goleuo, gan gwmpasu llawer o amodau'r caffaeliad llawn.Cyswllt
CVfideoLlamas heb oruchwyliaeth, gan Bosch, Unol DaleithiauDiwydiant Ceir Marcio Lôn, LiDARAnodwyd set ddata Llamas heb Oruchwyliaeth trwy gynhyrchu mapiau gyrru awtomatig diffiniad uchel, gan gynnwys marcwyr lôn wedi'u seilio ar Lidar. Gellir alinio'r cerbyd ymreolaethol yn erbyn y mapiau hyn a thaflir marciau'r lôn i mewn i ffrâm y camera. Gwneir y gorau o'r amcanestyniad 3D trwy leihau'r anghysondeb rhwng marcwyr delwedd a arsylwyd eisoes a'r rhai a ragwelir.Cyswllt
NLPsainLibriSpeech Amlieithog Facebook AI (MLS)cyffredinolAnodi Sain / Cydnabod LleferyddMae Facebook AI Multilingual LibriSpeech (MLS), yn set ddata ffynhonnell agored ar raddfa fawr sydd wedi'i chynllunio i helpu i ddatblygu ymchwil mewn adnabod lleferydd yn awtomatig (ASR). Mae MLS yn darparu mwy na 50,000 awr o sain ar draws 8 iaith: Saesneg, Almaeneg, Iseldireg, Ffrangeg, Sbaeneg, Eidaleg, Portiwgaleg a Phwyleg. Cyswllt