Trwyddedu delweddau wyneb a data fideo parod
Setiau Data Adnabod Wynebau Parod ar gyfer Hyfforddi Modelau AI
Manteisio ar setiau data o ffynonellau moesegol ac amrywiol yn ddemograffig i gyflymu hyfforddiant modelu AI a lleihau rhagfarn ar gyfer conglomerat technoleg byd-eang blaenllaw.
Trosolwg o'r Prosiect
Roedd y cleient yn ceisio cyflymu Datblygiad adnabod wynebau wedi'i yrru gan AI heb fynd trwy gylchoedd casglu data hir a chostus. I gyflawni hyn, roeddent angen setiau data parod i'w defnyddio nad oeddent yn unig mawr ac amrywiol, Ond hefyd wedi'i ffynhonnellu'n foesegol ac yn cydymffurfio â rheoliadau preifatrwydd data byd-eang.
Cyflwynodd Shaip setiau data cynhwysfawr gydag amrywiadau rheoledig mewn goleuo, ystumiau pen, occlusions, ac emosiynau, gan alluogi modelau'r cleient i gyflawni cywirdeb a thegwch wrth fodloni'r meini prawf ethnig a demograffig gofynnol. Roedd pob set ddata yn cynnwys metadata manwl, anodiadau ystum, a blychau ffiniol ar gyfer adnabod emosiynau, gan ganiatáu i fodelau gael eu hyfforddi a'u profi mewn senarios byd go iawn amrywiol iawn.
Ystadegau Allweddol
7,000+ o Bynciau
mewn Set Data Hanesyddol gyda 300,000+ o ddelweddau a 2,000 o fideos.
10,000+ o Bynciau
yn y Set Data Emosiwn Aml-Ongl.
74,880 Images
mewn Goleuo
Set Data Amrywiad.
18,600 Images
yn cwmpasu chwech
emosiynau craidd.
Cwmpas y Prosiect
Roedd y cleient yn ofynnol setiau data delweddau wyneb a fideo ar raddfa fawr, wedi'u ffynhonnellu'n foesegol, ac yn amrywiol yn ddemograffig i gefnogi datblygiad a hyfforddiant modelau adnabod wynebau. Roedd y setiau data hyn yn hanfodol i bweru achosion defnydd yn systemau gwrth-ffugio, gwirio hunaniaeth, paru delweddau, a dadansoddi mynegiant, gan sicrhau perfformiad AI cadarn a diduedd mewn cymwysiadau byd go iawn.
Roedd cwmpas yr ymgysylltiad yn cynnwys:
- Cyflawni setiau data wedi'u curadu wedi'i gynllunio i ddiwallu achosion defnydd adnabod wynebau fel gwrth-ffugio, gwirio hunaniaeth ac adnabod mynegiant.
- Yn darparu delweddau a fideos gydag anodiadau manwl ar gyfer demograffeg, ystum y pen, occlusions, math o oleuadau, ac emosiynau.
- sicrhau sylw demograffig cytbwys i leihau rhagfarn systemig mewn hyfforddiant.
- Gwarantu cydymffurfiaeth a chydsyniad gyda safonau diogelu data a phreifatrwydd byd-eang.
Cyfraniadau Set Data Enghreifftiol:
- Set Ddata Hanesyddol (~7,000 o bynciau): 300,000+ o ddelweddau a 2,000 o fideos gydag amrywiadau ystum ac occlusion.
- Set Data Emosiwn Aml-Ongl (~10,000 o bynciau): 15–20 delwedd fesul pwnc ar draws onglau a chyflyrau emosiynol.
- Set Data Chwe Emosiwn (~3,100 o bynciau): 18,600 o ddelweddau wedi'u hanodi yn cwmpasu mynegiadau dynol craidd.
- Set Data Amrywiad Goleuo (~468 o bynciau): 74,880 o ddelweddau ar draws naw cyflwr goleuo.
Heriau
Aeth y prosiect i’r afael â’r heriau allweddol sy’n gyffredin wrth adeiladu modelau AI cadarn:
Tuedd mewn Modelau AI
Atal gor-gynrychiolaeth ethnigrwydd neu rywiau penodol er mwyn sicrhau tegwch.
Amrywioldeb Byd Go Iawn
Cipio amodau goleuo, onglau wyneb, occlusions, a mynegiadau naturiol.
Graddfa ac Ansawdd
Darparu cannoedd o filoedd o ddelweddau cydraniad uchel heb beryglu amrywiaeth.
Cydymffurfiad Rheoleiddiol
Bodloni gofynion preifatrwydd a diogelu data byd-eang llym gyda chydsyniad llawn y cyfranogwr.
Ateb
Gweithredodd Shaip ymagwedd strwythuredig i sicrhau ansawdd a pherthnasedd y set ddata:
- Setiau Data Cytbwys wedi'u Curadu gyda chynrychiolaeth eang o ran ethnigrwydd, rhywedd ac oedran.
- Wedi'i ddal ystumiau aml-ongl ac amrywiadau goleuo i efelychu amodau'r byd go iawn.
- Ychwanegwyd anodiadau manwl (e.e., ystum y pen, rhwystrau, emosiynau) i gyfoethogi defnyddioldeb y set ddata.
- Sefydlu'n llym llifau gwaith rheoli ansawdd a chydymffurfiaeth i warantu ffynonellau moesegol a chydymffurfiaeth â phreifatrwydd.
Portffolio Setiau Data
| Set ddata | Cyfrol | Demograffeg / Amrywiaeth | Safonau / Manylebau |
|---|---|---|---|
| Set Data Delweddau a Fideo Wyneb Hanesyddol (~7,000 o Bynciau) | 7,000 o ddelweddau cofrestru; 300,000+ o ddelweddau hanesyddol; 2,000 o fideos (1 dan do + 1 awyr agored fesul 1,000 o bynciau) | Ethnigrwydd: Du (35%), Dwyrain Asiaidd (42%), De Asiaidd (13%), Gwyn (10%); Rhyw: 50% Gwryw / 50% Benyw; Oedran: Oedolion 18+ (10 mlynedd diwethaf) | Hyd y fideo: 1–2 funud; Amrywiad ystum y pen (P1–P7); 5 math o gau (O0–O4) |
| Set Data Delweddau Wyneb (~5,000 o Bynciau) | 35 delwedd fesul pwnc; 2,500 o Indiaid; 1,000 o Asiaid; 1,500 o Bobl Ddu | Oedran: 18–60 oed; Dosbarthiad cytbwys o ran rhywedd | Dim harddu; Cefndir a dillad amrywiol; Datrysiad lleiaf: 960 × 1280 |
| Set Ddata Emosiwn Aml-Ongl (~10,000 o Bynciau – Tsieineaidd) | 15–20 o ddelweddau fesul pwnc; Ystumiau: Blaen, Chwith, Dde (30°–60°); Mynegiadau: Gwên, ceg agored, trist, difrifol, niwtral | Ethnigrwydd: Tsieineaidd; Oedran: 18–26; Rhyw: rhaniad 50/50 | Cydraniad: 2160 × 3840 picsel neu uwch |
| Set Data Chwech Emosiwn Dynol (~3,100 o Bynciau) | 6 delwedd fesul pwnc (mynegiadau gwahanol); cyfanswm o 18,600 o ddelweddau | Ethnigrwydd: Japaneaidd (9,000), Coreaidd (2,400), Tsieineaidd (2,400), De-ddwyrain Asiaidd (2,400), De Asiaidd (2,400); Oedran: 20–65 oed | Anodiadau blwch ffiniol ar gyfer emosiynau; Cefndiroedd plaen; Dim hetiau, sbectol na rhwystrau |
| Set Data Amrywiad Goleuo (~468 o Bynciau Indiaidd) | 160 o ddelweddau fesul pwnc; Cyfanswm: 74,880 o ddelweddau | Oedran: 20–70; 70% Gwryw | 9 cyflwr goleuo (dan do, yn yr awyr agored, golau ochr, golau cefn, neon, ac ati) |
| Set Data Delweddau Wyneb Aml-Ethnig (~600 o Bynciau) | Cyfanswm o 3,752 o ddelweddau | Ethnigrwydd: Affricanaidd, y Dwyrain Canol, Brodorol America, De Asiaidd, De-ddwyrain Asiaidd; Oedran: 20–70 oed | - |
Canlyniad
Cafodd y cydweithrediad effaith sylweddol ar fusnes a thechnegol:
- Gwell Cywirdeb Model: Cywirdeb a chofio gwell ar gyfer modelau adnabod wynebau ar draws achosion defnydd lluosog.
- Lleihau Tuedd: Lleihaodd cynrychiolaeth ddemograffig gytbwys ragfarn systemig mewn allbynnau AI.
- Amserlenni Datblygu CyflymedigRoedd setiau data parod yn caniatáu prototeipio cyflym a hyfforddiant modelu heb gasglu data hir.
- Cydymffurfiad RheoleiddiolRoedd yr holl setiau data yn cydymffurfio â safonau preifatrwydd byd-eang ac yn cynnwys caniatâd cyfranogwyr.
Rhoddodd setiau data amrywiol, moesegol Shaip y cyflymder, yr ansawdd a'r cydymffurfiaeth yr oedd eu hangen arnom. Gyda data parod i'w ddefnyddio, fe wnaethom gyflymu hyfforddiant model AI a lleihau rhagfarn systemig yn sylweddol.