Diffiniad
Casglu data AI yw'r broses o gasglu data crai—testun, sain, delweddau, fideo, neu gofnodion strwythuredig—a ddefnyddir i hyfforddi, dilysu a phrofi modelau dysgu peirianyddol. Mae'n sicrhau bod gan fodelau enghreifftiau cynrychioliadol o'r broblem yn y byd go iawn.
Diben
Y pwrpas yw adeiladu setiau data sy'n caniatáu i algorithmau ddysgu patrymau'n effeithiol. Mae casglu data dibynadwy yn lleihau rhagfarn ac yn gwella cywirdeb modelau ar draws gwahanol amgylcheddau a phoblogaethau.
Pwysigrwydd
- Mae ansawdd y data a gesglir yn effeithio'n uniongyrchol ar ganlyniadau'r model.
- Gall casglu gwael arwain at fodelau rhagfarnllyd neu na ellir eu defnyddio.
- Mae ffynonellau amrywiol yn gwella cyffredinolrwydd ac yn lleihau annhegwch.
- Rhaid dilyn safonau moesegol a chyfreithiol (e.e., GDPR, HIPAA).
Sut Mae'n Gwaith
- Diffiniwch y math o ddata sydd ei angen yn seiliedig ar nodau'r prosiect.
- Nodwch ffynonellau (synwyryddion, APIs, arolygon, recordiadau, ac ati).
- Casglu data gyda'r caniatâd a'r amddiffyniadau preifatrwydd priodol.
- Storiwch ddata gyda metadata ar gyfer olrheiniadwyedd a chyd-destun.
- Paratowch ddata ar gyfer anodi, glanhau neu hyfforddi yn ddiweddarach.
Enghreifftiau (Y Byd Go Iawn)
- ImageNet: set ddata delweddau ar raddfa fawr ar gyfer ymchwil gweledigaeth gyfrifiadurol.
- Google Street View: data a gesglir ar gyfer mapiau a deallusrwydd artiffisial gweledol.
- Mozilla Common Voice: set ddata agored o recordiadau lleferydd ar gyfer ASR.
Cyfeiriadau / Darllen Pellach
- Taflenni Data ar gyfer Setiau Data — Gebru et al., ACM FAccT.
- Paratoi Data ar gyfer Systemau Deallusrwydd Artiffisial — NIST.
- ISO/IEC TR 20547-5: Pensaernïaeth Cyfeirio Data Mawr — ISO.