Setiau Data Agored
Darganfyddwch setiau data ffynhonnell agored sy'n eich galluogi i fynd i hyfforddi modelau ML
Setiau Data Ffynhonnell Agored I'ch Dechrau Chi gyda Modelau AI / ML
Nid yw allbwn eich modelau AI & ML cystal â'r data rydych chi'n ei ddefnyddio i'w hyfforddi - felly mae'r manwl gywirdeb rydych chi'n ei gymhwyso i gydgrynhoi data a thagio ac adnabod y data hwnnw yn bwysig!
Felly os ydych chi am gychwyn menter AI / ML newydd ac yn awr rydych chi'n sylweddoli'n gyflym y bydd dod o hyd i ddata hyfforddi o ansawdd uchel yn un o agweddau mwy heriol eich prosiect gan mai setiau data o ansawdd uchel yw'r tanwydd sy'n cadw'r AI / Peiriant ML yn rhedeg. Rydym wedi cronni rhestr o setiau data agored sy'n rhad ac am ddim i'w defnyddio a'u hyfforddi i'ch modelau AI / ML yn y dyfodol.
| arbenigo | Math o Ddata | Enw'r Set Ddata | Diwydiant / Adran. | Achos Anodi / Defnydd | Cyswllt |
|---|---|---|---|---|---|
| +NLP | Testun | Adolygiadau Amazon | E-fasnach | Dadansoddiad Sentiment | Cyswllt |
| Disgrifiad | Set o adolygiadau a graddfeydd 35 Mn dros y 18 mlynedd diwethaf mewn testun plaen gyda manylion y defnyddiwr a'r cynnyrch. | ||||
| +NLP | Testun | Data Cysylltiadau Wikipedia | cyffredinol | Cyswllt | |
| Disgrifiad | Mwy na 4 miliwn o erthyglau sy'n cynnwys 1.9 biliwn o eiriau o Wicipedia. Mae pob erthygl yn cynnwys hypergysylltiadau ar gyfer yr endid cysylltiedig. | ||||
| +NLP | Testun | Banc Coed Sentiment Standford | Adloniant | Dadansoddiad Sentiment | Cyswllt |
| Disgrifiad | Set ddata anodiadau teimlad ar gyfer dros 10,000 o frawddegau adolygu ffilm Rotten Tomatoes. Ar gael ar lefel ymadrodd - mae pob brawddeg yn cael ei rhannu'n is-ymadroddion trwy ddeueiddio'r coed dadansoddi yn y fformat Penn Treebank. | ||||
| +NLP | Testun | Sentiment Twitter Airline yr UD | Airline | Dadansoddiad Sentiment | Cyswllt |
| Disgrifiad | Roedd trydariadau 2015 ar US Airlines wedi'u rhannu'n deimladau cadarnhaol, niwtral a negyddol. | ||||
| +CV | delwedd | Delweddnet | cyffredinol | Cyswllt | |
| Disgrifiad | Set ddata gyda dros 14 miliwn o ddelweddau mewn gwahanol fformatau ffeiliau wedi'u mapio i tua 21,000 o synsetiau. Synomau gydag endidau cysylltiedig sy'n bresennol fel delwedd yw synsetiau. Mae gan 1 miliwn o ddelweddau flychau ffiniol ac mae gan fwy nag 1 miliwn o ddelweddau nodweddion SIFT. | ||||
| +CV | delwedd | Delweddau Agored Google | cyffredinol | Cyswllt | |
| Disgrifiad | Set ddata tebyg i ImageNet gyda 600 o gategorïau. Ar gael mewn rhaniadau datblygu, dilysu a hyfforddi. Mae rhai delweddau hefyd yn cynnwys blychau ffiniol a pherthnasoedd gweledol. | ||||
| +NLP | Testun | Deialogau Ffilm Cornell | Adloniant | Deialogau | Cyswllt |
| Disgrifiad | Casgliad o sgyrsiau ffuglennol, gyda metadata o gymeriadau a ffilmiau. Mae pob rhes yn ddeialog rhwng dau berson, ar ffurf cwestiwn-ateb. | ||||
| Disgrifiad | Set ddata cwestiwn-ateb gyda chwestiynau ac atebion o borth Yahoo Answers rhwng Ebrill 2007 a Hydref 2007. | ||||
| +NLP | Testun | MS MARCO | cyffredinol | Ateb Cwestiynau | Cyswllt |
| Disgrifiad | Set ddata cwestiwn-ateb gydag anodiadau o logiau chwilio gwe Bing. Mae pob cwestiwn yn cynnwys ateb a ddarparwyd gan ddefnyddiwr, yn ogystal â darnau gwe sy'n cynnwys yr ateb. | ||||
| +NLP | Testun | Set Data Cwestiynau Naturiol | cyffredinol | Ateb Cwestiynau | Cyswllt |
| Disgrifiad | Wedi'i ryddhau gan Google, mae'r set ddata hon yn cynnwys ymholiadau ac atebion defnyddwyr go iawn o erthyglau Wicipedia. | ||||
| +NLP | Testun | DBPedia | cyffredinol | Graff Gwybodaeth | Cyswllt |
| Disgrifiad | Rendro strwythuredig o Wicipedia, gydag endidau a pherthnasau wedi'u tynnu fel Graff Gwybodaeth. | ||||
| +NLP | Testun | YAGO | cyffredinol | Graff Gwybodaeth | Cyswllt |
| Disgrifiad | Graff gwybodaeth sy'n cynnwys endidau a chysylltiadau o Wicipedia, WordNet, a GeoNames. | ||||
| +NLP | Testun | FreeBase | cyffredinol | Graff Gwybodaeth | Cyswllt |
| Disgrifiad | Cronfa wybodaeth a gasglwyd gan y dorf sy'n cynnwys endidau a pherthnasoedd, bellach wedi'i hymgorffori yn graff gwybodaeth Google. | ||||
| +NLP | Testun | Ontonodau | cyffredinol | Labelu Rôl Semantig | Cyswllt |
| Disgrifiad | Corpws gydag anodiadau cystrawennol, semantig, a lefel disgwrs a ddefnyddir yn y tasiau a rennir gan CoNLL. | ||||
| +NLP | Testun | CoNLL 2003 | cyffredinol | Cydnabod Endid a Enwyd | Cyswllt |
| Disgrifiad | Set ddata Saesneg wedi'i anodi ar gyfer endidau â enwau fel person, sefydliad a lleoliad. | ||||
| +CV | delwedd | cnau coco | cyffredinol | Canfod Gwrthrych | Cyswllt |
| Disgrifiad | Gwrthrychau Cyffredin mewn Cyd-destun: set ddata wedi'i anodi'n gyfoethog ar gyfer canfod, segmentu a chapsiynu gwrthrychau. | ||||
| +CV | delwedd | VOC PASCAL | cyffredinol | Canfod Gwrthrych | Cyswllt |
| Disgrifiad | Set ddata meincnod ar gyfer heriau canfod a segmentu gwrthrychau. | ||||
| +CV | delwedd | Dinasluniau | Gyrru Ymreolaethol | Segmentu Semantig | Cyswllt |
| Disgrifiad | Set ddata ar gyfer deall golygfeydd trefol gydag anodiadau lefel picsel ar gyfer 30 dosbarth. | ||||
| +CV | delwedd | MNIST | cyffredinol | Dosbarthiad Digid | Cyswllt |
| Disgrifiad | Set ddata digidau wedi'u hysgrifennu â llaw gyda 60,000 o ddelweddau hyfforddi a 10,000 o ddelweddau prawf o 28x28 picsel. | ||||
| +CV | delwedd | Ffasiwn-MNIST | manwerthu | Dosbarthiad Delwedd | Cyswllt |
| Disgrifiad | Set ddata o ddelweddau erthyglau Zalando yn yr un fformat â MNIST, a ddefnyddir fel dewis arall ar gyfer meincnodi. | ||||
| +NLP | sain | LibriAraith | cyffredinol | ASR | Cyswllt |
| Disgrifiad | Corpws o leferydd Saesneg wedi'i ddarllen o lyfrau sain, gyda 1000 awr o leferydd a thestunau cysylltiedig. | ||||
| +NLP | sain | TED-LIUM | cyffredinol | ASR | Cyswllt |
| Disgrifiad | Sgyrsiau TED wedi'u trawsgrifio gydag sain a thrawsgrifiadau wedi'u halinio ar gyfer ymchwil adnabod lleferydd. | ||||
| +NLP | sain | TIMIT | cyffredinol | Adnabyddiaeth Ffonemau | Cyswllt |
| Disgrifiad | Lleferydd wedi'i drawsgrifio'n ffonetig siaradwyr Saesneg Americanaidd, a ddefnyddir yn helaeth ar gyfer tasgau adnabod ffonemau. | ||||
| +NLP | sain | Llais Cyffredin | cyffredinol | ASR | Cyswllt |
| Disgrifiad | Corpws amlieithog o leferydd darllen a gyfrannwyd gan wirfoddolwyr ledled y byd. | ||||
| +NLP | sain | VoxCeleb | cyffredinol | Cydnabod Siaradwr | Cyswllt |
| Disgrifiad | Set ddata adnabod siaradwyr ar raddfa fawr a gasglwyd o fideos YouTube. | ||||
| +NLP | Testun | Dump Wicipedia | cyffredinol | Modelu Iaith | Cyswllt |
| Disgrifiad | Crynodeb o destun llawn erthyglau Wicipedia, yn cael eu diweddaru'n rheolaidd, a ddefnyddir ar gyfer hyfforddi modelau iaith ymlaen llaw. | ||||
| +NLP | Testun | Gigaword | Newyddion | Modelu Iaith | Cyswllt |
| Disgrifiad | Archif gynhwysfawr o ddata testun newyddion gan nifer o asiantaethau newyddion. | ||||
| +NLP | Testun | Adolygiadau IMDB | Adloniant | Dadansoddiad Sentiment | Cyswllt |
| Disgrifiad | Set ddata adolygu ffilmiau fawr ar gyfer dosbarthu teimlad deuaidd. | ||||
| +CV | fideo | Cineteg-700 | cyffredinol | Cydnabod Gweithredoedd | Cyswllt |
| Disgrifiad | Set ddata fawr ac o ansawdd uchel o glipiau fideo YouTube sy'n cwmpasu 700 o ddosbarthiadau gweithredu dynol. | ||||
| +CV | fideo | UCF101 | cyffredinol | Cydnabod Gweithredoedd | Cyswllt |
| Disgrifiad | Set ddata o fideos gweithredu realistig, gyda 101 o gategorïau gweithredu. | ||||
| +CV | fideo | HMDB51 | cyffredinol | Cydnabod Gweithredoedd | Cyswllt |
| Disgrifiad | Cronfa ddata fideo symudiad dynol fawr gyda 51 categori gweithredu. | ||||
| Disgrifiad | Cronfa ddata o ffotograffau wynebau a gynlluniwyd ar gyfer astudio adnabyddiaeth wynebau heb gyfyngiad. | ||||
| +CV | delwedd | CASIA-Wyneb Gwe | cyffredinol | wyneb Cydnabyddiaeth | Cyswllt |
| Disgrifiad | Set ddata gyda miliynau o ddelweddau wyneb ar gyfer hyfforddi modelau adnabod wynebau dwfn. | ||||
| +NLP | Testun | SQuAD | cyffredinol | Darllen a Deall | Cyswllt |
| Disgrifiad | Set Ddata Ateb Cwestiynau Stanford: cwestiynau a ofynnwyd gan weithwyr torfol ar set o erthyglau Wicipedia. | ||||
| Disgrifiad | Set ddata dealltwriaeth beiriannol gyda chwestiynau ac atebion yn seiliedig ar erthyglau newyddion CNN. | ||||
| +NLP | Testun | Aml-NLI | cyffredinol | Casgliad Iaith Naturiol | Cyswllt |
| Disgrifiad | Set ddata ar gyfer casglu iaith naturiol pâr o frawddegau ar draws genres lluosog. | ||||
| +NLP | Testun | SNLI | cyffredinol | Casgliad Iaith Naturiol | Cyswllt |
| Disgrifiad | Corpws Casgliadau Iaith Naturiol Stanford gyda pharau brawddegau wedi'u labelu fel cynnwys, gwrthddywediad, neu niwtral. | ||||
| Disgrifiad | Casgliad o dros 100 miliwn o docynnau a dynnwyd o'r set o erthyglau Da a Nodwedd wedi'u gwirio ar Wicipedia. | ||||
| Disgrifiad | Set ddata o 16,185 o ddelweddau o 196 dosbarth o geir. | ||||
| +CV | delwedd | Blodau Rhydychen 102 | Botaneg | Dosbarthiad mân-graen | Cyswllt |
| Disgrifiad | 102 o gategorïau blodau sy'n digwydd yn gyffredin yn y Deyrnas Unedig. | ||||
| +CV | delwedd | CIFAR-10 | cyffredinol | Dosbarthiad Delwedd | Cyswllt |
| Disgrifiad | Delweddau o 10 dosbarth: awyren, car, aderyn, cath, carw, ci, broga, ceffyl, llong, a lori. | ||||
| +CV | delwedd | CIFAR-100 | cyffredinol | Dosbarthiad Delwedd | Cyswllt |
| Disgrifiad | Set ddata debyg i CIFAR-10, ond gyda 100 o ddosbarthiadau manwl. | ||||
| +CV | delwedd | Cynllun Person VOC | cyffredinol | Amcangyfrif o Sais | Cyswllt |
| Disgrifiad | Rhan o PASCAL VOC sy'n canolbwyntio ar anodiadau cynllun person fel y pen, y dwylo a'r traed. | ||||
| +CV | delwedd | Ystum Dynol MPII | cyffredinol | Amcangyfrif o Sais | Cyswllt |
| Disgrifiad | Tua 25,000 o ddelweddau yn cynnwys dros 40,000 o bobl â chymalau corff wedi'u hanodio. | ||||
| Disgrifiad | Casgliad o erthyglau newyddion Reuters ar gyfer ymchwil i gategoreiddio testun. | ||||
| +NLP | Testun | 20 o Grwpiau Newyddion | cyffredinol | Dosbarthiad Testun | Cyswllt |
| Disgrifiad | Casgliad o 20,000 o ddogfennau grŵp newyddion wedi'u rhannu'n 20 grŵp newyddion gwahanol. | ||||