Mae algorithm AI cystal â'r data rydych chi'n ei fwydo.
Nid yw'n ddatganiad beiddgar nac anghonfensiynol. Gallai AI fod wedi ymddangos braidd yn bell ychydig ddegawdau yn ôl, ond mae Deallusrwydd Artiffisial a Dysgu Peiriannau wedi dod yn bell iawn ers hynny.
Mae gweledigaeth gyfrifiadurol yn helpu cyfrifiaduron i ddeall a dehongli labeli a delweddau. Pan fyddwch chi'n hyfforddi'ch cyfrifiadur gan ddefnyddio'r math cywir o setiau data delweddau, gall ennill y gallu i ganfod, deall ac adnabod amrywiol nodweddion wyneb, canfod clefydau, gyrru cerbydau ymreolaethol, a hefyd achub bywydau gan ddefnyddio sganio organau aml-ddimensiwn.
Rhagwelir y bydd y Farchnad Gweledigaeth Cyfrifiadurol yn cyrraedd $ 144.46 Biliwn gan 2028 o gymedrol $7.04 biliwn yn 2020, tyfu yn a CAGR o 45.64% rhwng 2021 a 2028.
Mae'r set ddata delweddau rydych chi'n ei bwydo ac yn ei hyfforddi i'ch tasgau Dysgu Peirianyddol a gweledigaeth gyfrifiadurol yn hanfodol i lwyddiant eich prosiect AI. Mae set ddata o ansawdd yn eithaf anodd ei chael. Mae defnyddio casgliad amrywiol o ddelweddau yn hanfodol i sicrhau hyfforddiant model cadarn ac i adlewyrchu cymhlethdod y byd go iawn yn well.
Yn dibynnu ar gymhlethdod eich prosiect, gallai gymryd rhwng ychydig ddyddiau ac ychydig wythnosau i gael setiau data dibynadwy a pherthnasol at ddibenion gweledigaeth gyfrifiadurol. Mae angen ystod amrywiol o setiau data i gwmpasu amrywiol dasgau gweledigaeth gyfrifiadurol a senarios byd go iawn. Yn aml, mae ymchwilwyr yn chwilio am set ddata sylweddol at ddibenion ymchwil i sicrhau gwerthusiad model cynhwysfawr ac i gefnogi ystod eang o gymwysiadau.
Yma, rydyn ni'n darparu ystod (wedi'u categoreiddio er hwylustod i chi) o setiau data delwedd ffynhonnell agored y gallwch eu defnyddio ar unwaith.
Tasgau Set Data Delweddau: Dosbarthu, Segmentu, Canfod, a Mwy
Setiau data delwedd yw asgwrn cefn gweledigaeth gyfrifiadurol fodern, gan bweru ystod eang o dasgau sy'n galluogi peiriannau i ddehongli a deall gwybodaeth weledol. P'un a ydych chi'n adeiladu model ar gyfer cerbydau ymreolus, yn datblygu technoleg adnabod wynebau, neu'n gweithio ar ddadansoddi delweddau meddygol, mae'r set ddata delweddau gywir yn offeryn hanfodol ar gyfer llwyddiant.
Dosbarthiad delwedd yw un o'r tasgau gweledigaeth gyfrifiadurol mwyaf sylfaenol. Yn y broses hon, mae model yn dysgu sut i aseinio label i ddelwedd gyfan yn seiliedig ar ei chynnwys. Er enghraifft, gallai set ddata dosbarthu delweddau helpu model i wahaniaethu rhwng delweddau o gathod a chŵn, neu adnabod gwahanol fathau o blanhigion. Mae'r dasg hon yn hanfodol ar gyfer cymwysiadau fel tagio lluniau awtomataidd, diagnosio clefydau o ddelweddau meddygol, a meincnodau categoreiddio golygfeydd.
Canfod gwrthrychau yn mynd gam ymhellach nid yn unig trwy nodi presenoldeb gwrthrychau o fewn delwedd ond hefyd trwy nodi eu lleoliadau gan ddefnyddio blychau ffiniol. Mae setiau data ar gyfer canfod gwrthrychau, fel y rhai sy'n cynnwys delweddau wedi'u hanodi â blychau ffiniol, yn hanfodol ar gyfer cymwysiadau fel canfod cerddwyr mewn cerbydau ymreolus, gwyliadwriaeth diogelwch, a dadansoddeg manwerthu. Mae canfod gwrthrychau hefyd yn elfen allweddol wrth ddatblygu algorithmau gweledigaeth gyfrifiadurol cadarn ar gyfer senarios byd go iawn.
Segmentu semantig yn cynnwys dosbarthu pob picsel mewn delwedd i gategori penodol, gan ddarparu dealltwriaeth fanwl o'r olygfa. Mae'r segmentu trimap lefel picsel hwn yn arbennig o bwysig mewn tasgau fel delweddu meddygol, lle mae angen amlinellu organau neu diwmorau yn fanwl gywir, ac mewn amgylcheddau trefol ar gyfer gyrru ymreolaethol, lle mae gwahaniaethu rhwng ffyrdd, palmentydd a cherbydau yn hanfodol.
Y tu hwnt i'r tasgau craidd hyn, mae setiau data delweddau hefyd yn cefnogi segmentu enghreifftiau (gwahaniaethu rhwng gwrthrychau unigol o'r un dosbarth), capsiynau delweddau (cynhyrchu testun disgrifiadol ar gyfer delweddau), ac adnabod wynebau (adnabod neu wirio wynebau dynol mewn delweddau). Mae pob un o'r tasgau gweledigaeth gyfrifiadurol hyn yn dibynnu ar ddelweddau o ansawdd uchel, wedi'u hanodi i hyfforddi a dilysu modelau dysgu peirianyddol.
Drwy fanteisio ar setiau data delweddau amrywiol sydd wedi'u hanodio'n dda, gall gwyddonwyr data ac ymarferwyr dysgu peirianyddol fynd i'r afael ag amrywiaeth o heriau gweledigaeth gyfrifiadurol, o dasgau adnabod a dosbarthu delweddau i broblemau segmentu a chanfod cymhleth. Mae'r set ddata gywir nid yn unig yn cyflymu ymchwil a datblygu ond hefyd yn sicrhau bod systemau gweledigaeth gyfrifiadurol yn perfformio'n gywir mewn cymwysiadau byd go iawn.
Rhestr Gynhwysfawr o Setiau Data Delwedd i Hyfforddi Eich Model Gweledigaeth Cyfrifiadurol
Cyffredinol:
-
DelweddNet
Mae ImageNet yn set ddata a ddefnyddir yn eang, ac mae'n dod ag 1.2 miliwn o ddelweddau rhyfeddol wedi'u categoreiddio i 1000 o gategorïau. Mae'r set ddata hon wedi'i threfnu yn unol â hierarchaeth WorldNet ac wedi'i chategoreiddio'n dair rhan - y data hyfforddi, labeli delwedd, a data dilysu.
-
Cineteg 700
Mae Kinetics 700 yn set ddata enfawr o ansawdd uchel gyda mwy na 650,000 o glipiau o 700 o wahanol ddosbarthiadau gweithredu dynol. Mae gan bob un o'r gweithredoedd dosbarth tua 700 o glipiau fideo. Mae gan y clipiau yn y set ddata ryngweithiadau dynol-gwrthrych a dynol-dynol, sy'n profi i fod yn eithaf defnyddiol wrth adnabod gweithredoedd dynol mewn fideos.
-
CIFAR-10
CIFAR 10 yw un o'r setiau data cyfrifiadurol mwyaf sy'n cynnwys 60000 o ddelweddau lliw 32 x 32 sy'n cynrychioli deg dosbarth gwahanol. Mae gan bob dosbarth tua 6000 o ddelweddau a ddefnyddir i hyfforddi algorithmau golwg cyfrifiadurol a dysgu peirianyddol.
-
Set Ddata Delweddau Anifeiliaid Anwes Rhydychen-IIIT
Mae'r set ddata delwedd anifeiliaid anwes yn cynnwys 37 categori gyda 200 o ddelweddau fesul dosbarth. Mae'r delweddau hyn yn amrywio o ran maint, ystum, a goleuo, ac mae anodiadau ar gyfer brid, ROI pen, a segmentiad trimap lefel picsel yn cyd-fynd â nhw.
-
Delweddau Agored Google
Gyda 9 miliwn o URLs trawiadol, dyma un o'r setiau data delwedd mwyaf ar y rhestr, sy'n cynnwys miliynau o ddelweddau wedi'u labelu ar draws 6,000 o gategorïau.
-
Delweddau Planhigion
Mae'r casgliad hwn yn cynnwys setiau data delwedd lluosog sy'n cynnwys 1 miliwn o ddelweddau planhigion trawiadol, yn cwmpasu tua 11 rhywogaeth.
-
LSUN
Mae LSUN yn set ddata delweddau ar raddfa fawr gyda miliynau o ddelweddau wedi'u labelu mewn gwahanol gategorïau golygfeydd a gwrthrychau. Mae'r set ddata yn cynnwys set brawf bwrpasol ar gyfer gwerthuso modelau.
Cydnabyddiaeth Wyneb:

-
Wynebau wedi'u Labelu yn y Gwyllt
Mae Labeled Faced in the Wild yn set ddata enfawr sy'n cynnwys mwy na 13,230 o ddelweddau o bron i 5,750 o bobl a ganfuwyd o'r rhyngrwyd. Mae'r set ddata hon o wynebau wedi'i chynllunio i'w gwneud hi'n haws astudio canfod wynebau heb gyfyngiad.
-
Wyneb Gwe CASIA
Mae CASIA Web face yn set ddata sydd wedi'i dylunio'n dda sy'n helpu dysgu peirianyddol ac ymchwil wyddonol ar adnabod wynebau heb gyfyngiad. Gyda mwy na 494,000 o ddelweddau o bron i 10,000 o hunaniaethau go iawn, mae'n ddelfrydol ar gyfer tasgau adnabod a gwirio wynebau.
-
Set Ddata Wynebau UMD
Mae UMD yn wynebu set ddata wedi'i hanodi'n dda sy'n cynnwys dwy ran - delweddau llonydd a fframiau fideo. Mae gan y set ddata fwy na 367,800 o anodiadau wyneb a 3.7 miliwn o fframiau fideo anodedig o bynciau.
-
Canfod Mwgwd Wyneb
Mae'r set ddata hon yn cynnwys 853 o ddelweddau wedi'u categoreiddio'n dri dosbarth: “gyda mwgwd,” “heb fwgwd,” a “mwgwd wedi'i wisgo'n anghywir,” ynghyd â'u blychau terfyn ar fformat PASCAL VOC.
-
FERET
Mae’r FERET (Cronfa Ddata Technoleg Adnabod Wynebau) yn set ddata gynhwysfawr o ddelweddau sy’n cynnwys dros 14,000 o ddelweddau anodedig o wynebau dynol.
Cydnabod Llawysgrifen:
-
Cronfa Ddata MNIST
Mae MNIST yn gronfa ddata sy'n cynnwys samplau o ddigidau mewn llawysgrifen o 0 i 9, ac mae ganddi 60,000 a 10,000 o ddelweddau hyfforddi a phrofi. Wedi'i ryddhau ym 1999, mae MNIST yn ei gwneud hi'n haws profi systemau prosesu delweddau yn Deep Learning.
-
Set Ddata Cymeriadau Artiffisial
Mae Set Ddata Cymeriadau Artiffisial, fel mae'r enw'n awgrymu, yn ddata artiffisial sy'n disgrifio strwythur yr iaith Saesneg mewn deg prif lythyren. Mae'n dod gyda mwy na 6000 o ddelweddau.
Canfod Gwrthrychau:
MS COCO
Set ddata canfod gwrthrychau a chapsiynau yw MS COCO neu Common Objects in Context.
Mae ganddo fwy na 328,000 o ddelweddau gyda chanfod pwyntiau allweddol, canfod aml-wrthrychau, capsiynau, ac anodiadau masg segmentu. Mae'n dod ag 80 categori gwrthrych a phum capsiwn fesul delwedd.
LSUN
Mae gan LSUN, sy'n fyr ar gyfer Deall Golygfa ar Raddfa Fawr, fwy na miliwn o ddelweddau wedi'u labelu mewn 20 categori gwrthrych a 10 golygfa. Mae gan rai categorïau bron i 300,000 o ddelweddau, gyda 300 o ddelweddau yn benodol i'w dilysu a 1000 o ddelweddau ar gyfer data prawf.
Gwrthrychau Cartref
Mae set ddata Home Objects yn cynnwys delweddau anodedig o wrthrychau ar hap o amgylch y tŷ – cegin, ystafell fyw, ac ystafell ymolchi. Mae gan y set ddata hon hefyd ychydig o fideos anodedig a 398 o luniau heb eu hanodi wedi'u cynllunio i'w profi.
Genom Gweledol
Mae Visual Genome yn gronfa wybodaeth weledol gynhwysfawr gyda dros 108,000 o ddelweddau â chapsiynau. Mae'n darparu anodiadau helaeth ar gyfer gwrthrychau, priodoleddau a pherthnasoedd, gan ei gwneud yn werthfawr ar gyfer adnabod gwrthrychau, capsiynau delweddau a thasgau dysgu amlfoddol.
Modurol:
Set ddata dinaswedd
Cityscape yw'r set ddata i fynd iddo wrth chwilio am ddilyniannau fideo amrywiol wedi'u recordio o olygfeydd stryd sawl dyfyniad. Cafodd y delweddau hyn eu dal dros gyfnod hir ac mewn gwahanol amodau tywydd a golau. Mae'r anodiadau ar gyfer 30 dosbarth o ddelweddau wedi'u rhannu'n wyth categori gwahanol.
Gyriant Dwfn Barkley
Mae Barkley DeepDrive wedi'i gynllunio'n benodol ar gyfer hyfforddiant cerbydau ymreolaethol, ac mae ganddo fwy na 100 mil o ddilyniannau fideo anodedig. Mae'n un o'r data hyfforddi mwyaf defnyddiol ar gyfer cerbydau ymreolaethol oherwydd y ffyrdd newidiol a'r amodau gyrru.
Mapilari
Mae gan Mapillary dros 750 miliwn o olygfeydd stryd ac arwyddion traffig ledled y byd, sy'n ddefnyddiol iawn wrth hyfforddi modelau canfyddiad gweledol mewn dysgu peiriant ac algorithmau AI. Mae'n caniatáu ichi ddatblygu cerbydau ymreolaethol sy'n darparu ar gyfer gwahanol amodau goleuo a thywydd a golygfannau.
Delweddu Meddygol:
Set Ddata Ymchwil Agored Covid-19
Mae gan y set ddata wreiddiol hon tua 6500 o segmentiadau ysgyfaint picsel-polygonaidd am belydr-x brest AP/PA. Yn ogystal, mae 517 o ddelweddau o belydrau-x cleifion Covid-19 gyda thagiau yn cynnwys enw, lleoliad, manylion derbyn, canlyniad, a mwy ar gael.
Cronfa Ddata NIH o 100,000 o belydrau-X o'r frest
Mae cronfa ddata NIH yn un o'r setiau data helaethaf sydd ar gael i'r cyhoedd sy'n cynnwys 100,000 o ddelweddau pelydr-x o'r frest a data cysylltiedig sy'n ddefnyddiol ar gyfer y gymuned wyddonol ac ymchwil. Mae ganddo hyd yn oed ddelweddau o gleifion â chyflyrau ysgyfaint datblygedig.
Atlas Patholeg Ddigidol
Mae Atlas Patholeg Ddigidol yn cynnig sawl delwedd glytiau histopatholegol, mwy na 17,000 i gyd, o bron i 100 o sleidiau anodedig o wahanol organau. Mae'r set ddata hon yn ddefnyddiol wrth ddatblygu meddalwedd cyfrifiadur golwg ac adnabod patrymau.
Cydnabod golygfa:

Cydnabod Golygfa Dan Do.
Mae Cydnabod Golygfa Dan Do yn set ddata hynod gategoraidd gyda bron i 15620 o ddelweddau o wrthrychau a golygfeydd dan do i'w defnyddio mewn dysgu peirianyddol a hyfforddiant data. Mae'n dod gyda dros 65 o gategorïau, ac mae gan bob categori o leiaf 100 o ddelweddau.
xGolwg
Fel un o'r setiau data mwyaf adnabyddus sydd ar gael yn gyhoeddus, mae xView yn cynnwys tunnell o ddelweddau uwchben anodedig o olygfeydd cymhleth a mawr amrywiol. Gyda thua 60 o ddosbarthiadau a mwy na miliwn o achosion gwrthrych, pwrpas y set ddata hon yw darparu gwell rhyddhad trychineb gan ddefnyddio delweddau lloeren.
lleoedd
Mae gan Lleoedd, set ddata a gyfrannwyd gan MIT, dros 1.8 miliwn o ddelweddau o 365 o wahanol gategorïau golygfa. Mae tua 50 o ddelweddau ym mhob un o'r categorïau hyn i'w dilysu a 900 o ddelweddau i'w profi. Mae dysgu nodweddion golygfa dwfn i sefydlu adnabyddiaeth golygfa neu dasgau adnabod gweledol yn bosibl.
Cronfa Ddata SUN
Mae cronfa ddata SUN yn feincnod categoreiddio golygfeydd cynhwysfawr a ddefnyddir yn helaeth mewn gweledigaeth gyfrifiadurol. Mae'n cynnwys miloedd o ddelweddau sy'n cwmpasu ystod eang o amgylcheddau dan do ac awyr agored, gydag anodiadau manwl ar gyfer pob golygfa. Mae cronfa ddata SUN yn cael ei chydnabod am ei sylw i wahanol olygfeydd ac mae'n gwasanaethu fel cyfeirnod safonol ar gyfer gwerthuso algorithmau deall golygfeydd.
Adloniant:
Set ddata IMDB WIKI
IMDB - Wiki yw un o'r cronfeydd data cyhoeddus mwyaf poblogaidd o wynebau wedi'u labelu'n ddigonol gydag oedran, rhyw ac enwau. Mae ganddo hefyd tua 20 mil o wynebau o enwogion a 62 mil o Wicipedia.
Wynebau Celeb
Mae Celeb Faces yn gronfa ddata ar raddfa fawr gyda 200,000 o ddelweddau anodedig o enwogion. Daw'r delweddau â sŵn cefndir ac maent yn peri amrywiadau, gan eu gwneud yn werthfawr ar gyfer setiau prawf hyfforddi mewn tasgau gweledigaeth gyfrifiadurol. Mae'n fuddiol iawn sicrhau cywirdeb uwch mewn adnabod wynebau, golygu, lleoleiddio rhannau wyneb, a mwy.
Set Data YouTube-8M
Mae YouTube-8M yn set ddata fideo wedi'i labelu ar raddfa fawr sy'n cynnwys miliynau o IDau fideo YouTube gydag anodiadau o ansawdd uchel a gynhyrchwyd gan beiriant o endidau gweledol. Defnyddir y set ddata hon yn helaeth ar gyfer deall fideo ar raddfa fawr a hyfforddi algorithmau gweledigaeth, gan ei bod yn cysylltu cynnwys fideo â metadata trwy IDau fideo YouTube, gan alluogi casglu ac anodiadau graddadwy o ddata fideo.
Nawr bod gennych chi restr enfawr o setiau data delweddau ffynhonnell agored i danio'ch peiriannau deallusrwydd artiffisial. Mae canlyniad eich modelau AI a dysgu peirianyddol yn dibynnu'n bennaf ar ansawdd y setiau data rydych chi'n eu bwydo a'u hyfforddi arnynt. Os ydych chi eisiau i'ch model AI daflu rhagfynegiadau cywir, mae angen setiau data o ansawdd sydd wedi'u crynhoi, eu tagio a'u labelu i berffeithrwydd. Mae gweithio gyda'r setiau data hyn yn ffordd ardderchog o ddatblygu a gwella eich sgiliau dysgu peirianyddol trwy brosiectau ymarferol, byd go iawn. I fwyhau llwyddiant eich system gweledigaeth gyfrifiadurol, rhaid i chi ddefnyddio cronfeydd data delweddau o ansawdd sy'n berthnasol i weledigaeth eich prosiect.