Diffiniad
Setiau data parod yw setiau data a gesglir ymlaen llaw ac sydd ar gael yn gyhoeddus neu'n fasnachol y gellir eu defnyddio'n uniongyrchol ar gyfer hyfforddi neu werthuso modelau AI.
Diben
Y pwrpas yw cyflymu ymchwil a datblygu drwy ddarparu data sydd ar gael yn rhwydd heb gasglu data costus.
Pwysigrwydd
- Yn arbed amser ac adnoddau i dimau AI.
- Yn galluogi atgynhyrchadwyedd a meincnodi.
- Efallai nad oes ganddo benodolrwydd parth ar gyfer rhai tasgau.
- Mae angen gwirio am ragfarn a chyfyngiadau trwyddedu.
Sut Mae'n Gwaith
- Nodwch y set ddata sy'n berthnasol i'r dasg AI.
- Adolygu cyfyngiadau trwyddedu a defnydd.
- Lawrlwythwch neu prynwch y set ddata.
- Rhagbrosesu yn ôl yr angen ar gyfer cydnawsedd.
- Hyfforddi neu werthuso modelau gan ddefnyddio'r set ddata.
Enghreifftiau (Y Byd Go Iawn)
- MNIST: set ddata digidau â llaw ar gyfer meincnodi.
- ImageNet: set ddata ar raddfa fawr ar gyfer gweledigaeth gyfrifiadurol.
- Common Crawl: set ddata testun gwe agored ar gyfer NLP.