Mae model AI gweithredol wedi'i adeiladu ar setiau data cadarn, dibynadwy a deinamig. Heb gyfoethog a manwl Data hyfforddi AI wrth law, yn sicr nid yw'n bosibl adeiladu datrysiad AI gwerthfawr a llwyddiannus. Gwyddom mai cymhlethdod y prosiect sy'n pennu, ac yn pennu, yr ansawdd data gofynnol. Ond nid ydym yn siŵr faint o ddata hyfforddi sydd ei angen arnom i adeiladu'r model arferol.
Nid oes ateb syml i'r hyn y mae'r swm cywir ohono data hyfforddi ar gyfer dysgu peirianyddol sydd ei angen. Yn hytrach na gweithio gyda ffigur maes peli, credwn y gall cyfres o ddulliau roi syniad cywir i chi o faint y data y gallai fod ei angen arnoch. Ond cyn hynny, gadewch i ni ddeall pam mae data hyfforddi yn hanfodol ar gyfer llwyddiant eich prosiect AI.
Arwyddocâd Data Hyfforddiant
Wrth siarad yng Ngŵyl Future of Everything The Wall Street Journal, dywedodd Arvind Krishna, Prif Swyddog Gweithredol IBM, fod bron i 80% o waith mewn Prosiect AI yn ymwneud â chasglu, glanhau a pharatoi data.' Ac roedd hefyd o'r farn bod busnesau'n rhoi'r gorau i'w mentrau AI oherwydd na allant gadw i fyny â'r gost, y gwaith a'r amser sydd eu hangen i gasglu data hyfforddi gwerthfawr.
Pennu'r data maint y sampl helpu i ddylunio'r datrysiad. Mae hefyd yn helpu i amcangyfrif yn gywir y gost, yr amser, a'r sgiliau sydd eu hangen ar gyfer y prosiect.
Os defnyddir setiau data anghywir neu annibynadwy i hyfforddi modelau ML, ni fydd y cymhwysiad canlyniadol yn darparu rhagfynegiadau da.
7 Ffactor Sy'n Pennu Swm y Data Hyfforddiant sydd ei Angen
Er bod y gofynion data o ran maint i hyfforddi modelau AI yn gwbl oddrychol ac y dylid eu cymryd fesul achos, mae yna ychydig o ffactorau cyffredinol sy'n dylanwadu'n wrthrychol. Gadewch i ni edrych ar y rhai mwyaf cyffredin.
Model Dysgu Peiriannau
Mae maint data'r hyfforddiant yn dibynnu a yw hyfforddiant eich model yn rhedeg ar ddysgu dan oruchwyliaeth neu ddysgu heb oruchwyliaeth. Er bod angen mwy o ddata hyfforddi ar y cyntaf, nid yw'r olaf yn gwneud hynny.
Dysgu dan Oruchwyliaeth
Mae hyn yn cynnwys defnyddio data wedi'i labelu, sydd yn ei dro yn ychwanegu cymhlethdodau at yr hyfforddiant. Mae tasgau fel dosbarthu delweddau neu glystyru yn gofyn am labeli neu briodoliadau er mwyn i beiriannau ddehongli a gwahaniaethu, gan arwain at y galw am fwy o ddata.
Dysgu heb Oruchwyliaeth
Nid yw defnyddio data wedi'i labelu yn fandad mewn dysgu heb oruchwyliaeth, gan leihau'r angen am symiau digrif o ddata yn gymharol. Wedi dweud hynny, byddai cyfaint y data yn dal i fod yn uchel ar gyfer modelau i ganfod patrymau ac adnabod strwythurau cynhenid a'u cydberthyn.
Amrywiaeth ac Amrywiaeth
Er mwyn i fodel fod mor deg a gwrthrychol â phosibl, dylid dileu rhagfarn gynhenid yn llwyr. Nid yw hyn ond yn trosi i'r ffaith bod angen mwy o gyfeintiau o setiau data amrywiol. Mae hyn yn sicrhau bod model yn dysgu llu o debygolrwyddau sy'n bodoli, gan ganiatáu iddo gadw draw rhag cynhyrchu ymatebion unochrog.
Cynyddu Dysgu a Throsglwyddo Data
Nid yw dod o hyd i ddata ansawdd ar gyfer achosion defnydd gwahanol ar draws diwydiannau a pharthau bob amser yn ddi-dor. Mewn sectorau sensitif fel gofal iechyd neu gyllid, prin fod data o ansawdd ar gael. Mewn achosion o'r fath, ychwanegu at ddata sy'n cynnwys defnyddio data wedi'i syntheseiddio yw'r unig ffordd ymlaen mewn modelau hyfforddi.
Arbrofi a Dilysu
Hyfforddiant iteraidd yw'r cydbwysedd, lle mae swm y data hyfforddi sydd ei angen yn cael ei gyfrifo ar ôl arbrofi cyson a dilysu canlyniadau. Trwy brofi a monitro dro ar ôl tro
perfformiad model, gall rhanddeiliaid fesur a oes angen mwy o ddata hyfforddi ar gyfer optimeiddio ymatebion.
Sut i Leihau Gofynion Cyfaint Data Hyfforddiant
Ni waeth a yw'n gyfyngiad ar y gyllideb, y dyddiad cau ar gyfer mynd i'r farchnad, neu'r diffyg data amrywiol, mae rhai opsiynau y gall mentrau eu defnyddio i leihau eu dibyniaeth ar symiau enfawr o ddata hyfforddi.
Cynyddu Data
lle mae data newydd yn cael ei gynhyrchu neu ei syntheseiddio o setiau data presennol yn ddelfrydol i'w ddefnyddio fel data hyfforddi. Mae'r data hwn yn deillio o ac yn dynwared data rhieni, sy'n ddata real 100%.
Trosglwyddo Dysgu
Mae hyn yn golygu addasu paramedrau model presennol i berfformio a chyflawni tasg newydd. Er enghraifft, os yw'ch model wedi dysgu adnabod afalau, gallwch ddefnyddio'r un model ac addasu ei baramedrau hyfforddi presennol i nodi orennau hefyd.
Modelau wedi'u hyfforddi ymlaen llaw
Lle gellir defnyddio gwybodaeth bresennol fel doethineb ar gyfer eich prosiect newydd. Gallai hyn fod yn ResNet ar gyfer tasgau sy'n gysylltiedig ag adnabod delwedd neu BERT ar gyfer achosion defnydd NLP.
Enghreifftiau o'r Byd Go Iawn O Brosiectau Dysgu Peiriannau Gyda Setiau Data Lleiaf
Er ei bod yn ymddangos yn amhosibl y gellir cyflawni rhai prosiectau dysgu peirianyddol uchelgeisiol heb fawr o ddeunyddiau crai, mae rhai achosion yn rhyfeddol o wir. Paratowch i gael eich syfrdanu.
Adroddiad Kaggle | Gofal Iechyd | Oncoleg Glinigol |
Mae arolwg Kaggle yn datgelu bod dros 70% o'r prosiectau dysgu peiriant wedi'u cwblhau gyda llai na 10,000 o samplau. | Gyda dim ond 500 o ddelweddau, hyfforddodd tîm MIT fodel i ganfod niwroopathi diabetig mewn delweddau meddygol o sganiau llygaid. | Gan barhau â'r enghraifft gyda gofal iechyd, llwyddodd tîm o Brifysgol Stanford i ddatblygu model i ganfod canser y croen gyda dim ond 1000 o ddelweddau. |
Gwneud Dyfaliadau Addysgedig
Nid oes unrhyw rif hud ynghylch y lleiafswm o ddata sydd ei angen, ond mae yna ychydig o reolau bawd y gallwch eu defnyddio i gyrraedd rhif rhesymegol.
Rheol 10
Fel rheol bawd, i ddatblygu model AI effeithlon, dylai nifer y setiau data hyfforddi sydd eu hangen fod ddeg gwaith yn fwy na phob paramedr model, a elwir hefyd yn raddau rhyddid. Nod y rheolau amser '10' yw cyfyngu ar yr amrywioldeb a chynyddu amrywiaeth y data. O'r herwydd, gall y rheol gyffredinol hon eich helpu i gychwyn eich prosiect trwy roi syniad sylfaenol i chi am y nifer gofynnol o setiau data.
Dysgu Dwfn
Mae dulliau dysgu dwfn yn helpu i ddatblygu modelau o ansawdd uchel os darperir mwy o ddata i'r system. Derbynnir yn gyffredinol y dylai cael 5000 o ddelweddau wedi'u labelu fesul categori fod yn ddigon ar gyfer creu algorithm dysgu dwfn a all weithio'n gyfartal â bodau dynol. Er mwyn datblygu modelau eithriadol o gymhleth, mae angen o leiaf 10 miliwn o eitemau wedi'u labelu.
Gweledigaeth Cyfrifiadurol
Os ydych chi'n defnyddio dysgu dwfn ar gyfer dosbarthu delweddau, mae consensws bod set ddata o 1000 o ddelweddau wedi'u labelu ar gyfer pob dosbarth yn nifer gweddol.
Cromliniau Dysgu
Defnyddir cromliniau dysgu i ddangos perfformiad yr algorithm dysgu peiriant yn erbyn maint data. Trwy gael y sgil model ar yr echel Y a'r set ddata hyfforddi ar yr echel X, mae'n bosibl deall sut mae maint y data yn effeithio ar ganlyniad y prosiect.
Anfanteision Bod â Rhy Fach o Ddata
Efallai eich bod yn meddwl ei bod braidd yn amlwg bod angen llawer iawn o ddata ar brosiect, ond weithiau, mae hyd yn oed busnesau mawr sydd â mynediad at ddata strwythuredig yn methu â’i gaffael. Gall hyfforddiant ar niferoedd cyfyngedig neu gyfyng o ddata atal y modelau dysgu peiriannau rhag cyflawni eu potensial llawn a chynyddu'r risg o ddarparu rhagfynegiadau anghywir.
Er nad oes rheol aur a chyffredinoli bras fel arfer yn cael ei wneud i ragweld anghenion data hyfforddi, mae bob amser yn well cael setiau data mawr na dioddef o gyfyngiadau. Y cyfyngiad data y mae eich model yn dioddef ohono fyddai cyfyngiadau eich prosiect.
Beth i'w wneud os oes angen mwy o setiau data arnoch chi
Er bod pawb eisiau cael mynediad i setiau data mawr, mae'n haws dweud na gwneud. Mae cael mynediad at symiau mawr o setiau data o ansawdd ac amrywiaeth yn hanfodol i lwyddiant y prosiect. Yma rydym yn darparu camau strategol i chi i wneud casglu data yn llawer haws.
Agor Set Ddata
Mae setiau data agored fel arfer yn cael eu hystyried yn 'ffynhonnell dda' o ddata rhad ac am ddim. Er y gallai hyn fod yn wir, nid setiau data agored sydd eu hangen ar y prosiect yn y rhan fwyaf o achosion. Mae yna lawer o leoedd y gellir caffael data ohonynt, megis ffynonellau'r llywodraeth, pyrth data Agored yr UE, archwilwyr data Google Public, a mwy. Fodd bynnag, mae llawer o anfanteision i ddefnyddio setiau data agored ar gyfer prosiectau cymhleth.
Pan fyddwch chi'n defnyddio setiau data o'r fath, rydych chi'n mentro hyfforddi a phrofi eich model ar ddata anghywir neu ar goll. Yn gyffredinol, nid yw'r dulliau casglu data yn hysbys, a allai effeithio ar ganlyniad y prosiect. Mae preifatrwydd, caniatâd, a dwyn hunaniaeth yn anfanteision sylweddol o ddefnyddio ffynonellau data agored.
Set Ddata Estynedig
Pan fydd gennych rai swm y data hyfforddi ond dim digon i fodloni holl ofynion eich prosiect, mae angen i chi gymhwyso technegau cynyddu data. Mae'r set ddata sydd ar gael yn cael ei hailbwrpasu i ddiwallu anghenion y model.
Bydd y samplau data yn destun trawsnewidiadau amrywiol sy'n gwneud y set ddata yn gyfoethog, yn amrywiol ac yn ddeinamig. Gwelir enghraifft syml o ychwanegiad data wrth ymdrin â delweddau. Gellir ychwanegu at ddelwedd mewn sawl ffordd - gellir ei thorri, ei newid maint, ei hadlewyrchu, ei throi'n onglau amrywiol, a gellir newid gosodiadau lliw.
Data Synthetig
Pan nad oes digon o ddata, gallwn droi at gynhyrchwyr data synthetig. Daw data synthetig yn ddefnyddiol o ran dysgu trosglwyddo, oherwydd gellir hyfforddi'r model yn gyntaf ar ddata synthetig ac yn ddiweddarach ar set ddata'r byd go iawn. Er enghraifft, gellir hyfforddi cerbyd hunan-yrru seiliedig ar AI yn gyntaf i adnabod a dadansoddi gwrthrychau ynddo gweledigaeth gyfrifiadurol gemau fideo.
Mae data synthetig yn fuddiol pan fo diffyg bywyd go iawn data i hyfforddi a phrofi eich modelau hyfforddedig. Ar ben hynny, fe'i defnyddir hefyd wrth ymdrin â phreifatrwydd a sensitifrwydd data.
Casglu Data Personol
Efallai bod casglu data personol yn ddelfrydol ar gyfer cynhyrchu setiau data pan nad yw ffurfiau eraill yn dod â'r canlyniadau gofynnol i mewn. Gellir cynhyrchu setiau data o ansawdd uchel gan ddefnyddio offer sgrapio gwe, synwyryddion, camerâu ac offer eraill. Pan fydd angen setiau data wedi'u teilwra arnoch sy'n gwella perfformiad eich modelau, efallai mai caffael setiau data wedi'u teilwra fyddai'r cam cywir. Mae sawl darparwr gwasanaethau trydydd parti yn cynnig eu harbenigedd.
Er mwyn datblygu datrysiadau AI perfformiad uchel, mae angen hyfforddi'r modelau ar setiau data dibynadwy o ansawdd da. Fodd bynnag, nid yw'n hawdd cael gafael ar setiau data cyfoethog a manwl sy'n cael effaith gadarnhaol ar ganlyniadau. Ond pan fyddwch chi'n partneru â darparwyr data dibynadwy, gallwch chi adeiladu model AI pwerus gyda sylfaen ddata gref.
A oes gennych chi brosiect gwych mewn golwg ond yn aros am setiau data wedi'u teilwra i hyfforddi'ch modelau neu'n ei chael hi'n anodd cael y canlyniad cywir o'ch prosiect? Rydym yn cynnig setiau data hyfforddi helaeth ar gyfer amrywiaeth o anghenion prosiect. Trosoledd potensial Shaip trwy siarad ag un o'n gwyddonwyr data heddiw a deall sut rydym wedi darparu setiau data o ansawdd uchel sy'n perfformio i gleientiaid yn y gorffennol.