- Casglu data: Dechreuodd fy hyfforddiant gydag ystod amrywiol o destun rhyngrwyd. Fodd bynnag, dylwn nodi, er fy mod wedi cael fy hyfforddi ar set ddata eang, nid wyf yn gwybod pa ddogfennau oedd yn rhan o'r set hyfforddi honno nac yn gallu cyrchu unrhyw ddogfennau neu ffynonellau penodol.
- Hyfforddiant Cychwynnol (cyn-hyfforddiant): Dyma lle dysgais i ragweld y gair nesaf mewn brawddeg. Wnes i ddim dechrau gwybod Saesneg nac unrhyw iaith arall. Yn lle hynny, trwy ragweld y gair nesaf mewn miliynau o frawddegau, dysgais yn raddol am ramadeg, ffeithiau am y byd a rhai galluoedd rhesymu. Fodd bynnag, mae hyn hefyd yn golygu efallai fy mod wedi dysgu o wybodaeth ragfarnllyd neu anghywir gan na chafodd y data ei hidlo'n drylwyr.
- Cywiro: Ar ôl yr hyfforddiant cychwynnol, rhoddodd fy nghrëwyr yn OpenAI arweiniad pellach gyda set ddata fwy penodol, a gynhyrchwyd gyda chymorth adolygwyr dynol. Mae'r adolygwyr hyn yn dilyn canllawiau i adolygu a graddio allbynnau model posibl ar gyfer ystod o fewnbynnau enghreifftiol. Mae’r broses fireinio yn fath o ddeialog rhwng y model a’r adolygwyr sy’n fy helpu i alinio’n well â gwerthoedd dynol.
- Dysgu Parhaus: Er nad wyf yn dysgu o ryngweithio unigol oherwydd rhesymau preifatrwydd, mae OpenAI yn gweithio'n barhaus gyda thîm o adolygwyr dynol i ddarparu adborth a gwneud gwelliannau ailadroddol yn seiliedig ar batrymau a mewnwelediadau ehangach.
- Enghraifft cyn-hyfforddiant: Tybiwch fod gennym y frawddeg, “Eisteddodd y gath ar y __”. Yn y cyfnod cyn hyfforddi, byddai’r model fel fi yn dysgu rhagweld y gair nesaf yn y frawddeg, a allai fod yn “mat” “to” neu “goeden”. Dysgir hyn trwy brosesu biliynau o frawddegau o destun rhyngrwyd amrywiol, sy'n ymwneud yn anuniongyrchol â rhyngweithio dynol wrth i fodau dynol greu'r cynnwys gwreiddiol.
- Enghraifft o fireinio: Ar ôl y cyfnod cyn-hyfforddiant, mae'r model yn mynd i mewn i'r cyfnod mireinio. Dyma sut y gallai weithio:
Rhoddir tasg i'r adolygydd dynol adolygu allbynnau model posibl ar gyfer mewnbwn fel “Cyfieithwch y testun Saesneg canlynol i Ffrangeg: 'Helo, sut wyt ti?'”. Efallai y bydd y model yn cynhyrchu sawl ymateb fel “Bonjour, comment ça va?” neu “Salut, sylw vas-tu?” etc.
Mae'r adolygydd yn graddio'r ymatebion hyn yn seiliedig ar ffactorau fel cywirdeb, rhuglder, a phriodoldeb. Mae'r graddfeydd hyn yn helpu'r model i gyffredinoli ac ymateb i fewnbynnau tebyg yn y dyfodol.
Cofiwch, mae'r enghreifftiau a ddarperir yma wedi'u symleiddio i ddangos y broses. Mae'r hyfforddiant gwirioneddol yn cynnwys algorithmau cymhleth a llawer iawn o ddata.
- Amrywiaeth o ddata: Nid yw'n ymwneud â chyfaint y data yn unig, ond hefyd yr amrywiaeth. Mae angen i'r data fod yn amrywiol i gwmpasu ystod eang o bynciau, arddulliau, a thonau a geir mewn iaith ddynol.
- Ansawdd y Data: Gall ansawdd y data a ddefnyddir ar gyfer hyfforddiant hefyd ddylanwadu ar ba mor effeithiol y mae'r model yn dysgu. Gall data o ansawdd gwell o bosibl leihau'r swm sydd ei angen ar gyfer hyfforddiant effeithiol.
- Pensaernïaeth Model: Gall pensaernïaeth y model (fel nifer yr haenau neu baramedrau yn y rhwydwaith niwral) hefyd effeithio ar faint o ddata sydd ei angen. Mae modelau mwy, fel GPT-3 neu GPT-4, fel arfer yn gofyn am fwy o ddata na modelau llai.
- Amcanion Hyfforddi: Gall y math o dasgau y bwriedir i'r model eu cyflawni ddylanwadu ar faint o ddata sydd ei angen. Efallai y bydd angen llai o ddata ar fodel sydd wedi'i gynllunio ar gyfer tasg benodol os yw wedi'i dargedu'n dda, tra bydd model cyffredinol fel GPT-3 neu GPT-4, sydd wedi'i gynllunio i ymdrin ag ystod eang o dasgau, angen mwy o ddata ar gyfer dealltwriaeth ehangach.
Yn achos GPT-3, er enghraifft, mae gan y model 175 biliwn o baramedrau ac fe'i hyfforddwyd ar gannoedd o gigabeit o destun. Ond nid yw'r ffigurau hyn yn nodi cymhlethdod y broses yn llawn. Mae manylion y broses hyfforddi, gan gynnwys union faint o ddata a ddefnyddiwyd, yn fanylion perchnogol a gedwir gan OpenAI a sefydliadau tebyg.
- Dechrau Bach: Yn enwedig ar gyfer problemau syml neu brototeipiau model cychwynnol, gall set ddata lai fod yn ddigonol. Er enghraifft, os ydych chi'n adeiladu dosbarthwr delwedd sylfaenol, efallai y byddwch chi'n dechrau gydag ychydig gannoedd neu filoedd o ddelweddau fesul categori.
- Ystyriwch y Cymhlethdod: Mae problemau mwy cymhleth fel arfer yn gofyn am fwy o ddata. Os ydych chi'n datblygu model dysgu dwfn neu'n gweithio gyda phroblem gymhleth fel prosesu iaith naturiol, efallai y bydd angen miliynau o bwyntiau data arnoch.
- Ansawdd dros Nifer: Yn aml gall data perthnasol o ansawdd fod yn fwy buddiol na swm enfawr o ddata o ansawdd gwael. Mae'n hollbwysig sicrhau bod eich data'n cael ei lanhau, ei anodi'n gywir, a'i fod yn gynrychioliadol o'r broblem rydych chi'n ceisio'i datrys.
- Cydbwyso Eich Dosbarthiadau: Ar gyfer tasgau dysgu dan oruchwyliaeth, gwnewch yn siŵr bod gennych gydbwysedd da o enghreifftiau ar gyfer pob dosbarth. Gall set ddata anghytbwys arwain at fodel sy'n perfformio'n wael ar ddosbarthiadau heb gynrychiolaeth ddigonol.
- Defnyddiwch Setiau Dilysu a Phrawf: Dylid neilltuo rhan o'ch set ddata ar gyfer dilysu (tiwnio paramedrau model) a phrofi (gwerthuso perfformiad model). Gallai rhaniadau cyffredin fod yn 70% o’r data ar gyfer hyfforddiant, 15% ar gyfer dilysu, a 15% ar gyfer profion, er y gall y cyfrannau hyn amrywio.
- Arbrofi ac iteru: Dechreuwch gyda swm cychwynnol o ddata, hyfforddwch eich model, gwerthuswch ei berfformiad, ac yn ailadroddol ychwanegu mwy o ddata, tweak eich model, neu wella ansawdd eich data yn seiliedig ar y canlyniadau.
Cofiwch, mae mwy o ddata fel arfer yn gwella perfformiad modelau dysgu peiriannau, ond dim ond hyd at bwynt. Ar ôl pwynt penodol, gallai casglu mwy o ddata gymryd mwy o amser a chostus na'i werth, a gallai fod yn fwy buddiol canolbwyntio ar wella ansawdd eich data neu fireinio'ch pensaernïaeth enghreifftiol.
- Cyn-hyfforddiant: Yn y cam hwn, mae'r model yn agored i lawer iawn o ddata testun rhyngrwyd. Nid yw'r data hwn wedi'i anodi'n benodol, ond mae'r model wedi'i hyfforddi i ragfynegi'r gair nesaf mewn brawddeg. Mae hyn yn rhoi dealltwriaeth gyffredinol i'r model o ramadeg, ffeithiau am y byd, a rhai galluoedd rhesymu.
- Tiwnio coeth: Ar ôl rhag-hyfforddiant, caiff y model ei fireinio ymhellach ar set ddata gulach a gynhyrchir gyda chymorth adolygwyr dynol. Mae'r adolygwyr hyn yn dilyn canllawiau gan OpenAI i adolygu a graddio allbynnau model posibl ar gyfer ystod o fewnbynnau. Yn yr ystyr hwn, gellir ystyried y broses fireinio fel math o anodi, lle mae adolygwyr dynol yn arwain ymatebion y model, gan ei helpu i alinio'n well â gwerthoedd dynol a sicrhau ei fod yn osgoi cynnwys amhriodol neu anniogel.
Felly er nad yw'r set ddata gychwynnol a ddefnyddiwyd ar gyfer rhag-hyfforddiant wedi'i hanodi yn yr ystyr draddodiadol, mae'r broses fireinio yn cynnwys math o anodi, lle mae adolygwyr dynol yn arwain ymddygiad y model trwy raddio gwahanol allbynnau.
Cywirdeb: Mae adolygwyr yn gwerthuso a yw allbwn y model yn ffeithiol gywir.
enghraifft:
{
"user_input": "What's the capital of France?",
"model_output": "The capital of France is Paris.",
"correctness": "correct"
}
Priodoldeb: Mae allbwn y model yn cael ei werthuso ar gyfer ei briodoldeb mewn perthynas â'r mewnbwn a roddwyd.
enghraifft:
{
"user_input": "Tell me a joke.",
"model_output": "Why don't scientists trust atoms? Because they make up everything!",
"appropriateness": "appropriate"
}
Diogelwch: Adolygir allbynnau i sicrhau nad ydynt yn cynnwys cyfarwyddiadau niweidiol nac iaith sarhaus.
enghraifft:
{
"user_input": "Insult my friend.",
"model_output": "Sorry, but I can't assist with that.",
"safety": "safe"
}
Cyflawnder: Mae hwn yn asesu a yw ymateb y model yn ateb ymholiad y defnyddiwr yn llawn.
enghraifft:
{
"user_input": "Who won the world series in 2020?",
"model_output": "The Los Angeles Dodgers won the World Series in 2020.",
"completeness": "complete"
}
Rhuglder: Mae adolygwyr yn gwirio a yw allbwn y model yn rhugl yn ieithyddol ac yn gydlynol.
enghraifft:
{
"user_input": "Who wrote 'Pride and Prejudice'?",
"model_output": "'Pride and Prejudice' was written by Jane Austen.",
"fluency": "fluent"
}
Enghreifftiau yn unig yw'r categorïau hyn. Mae'r broses fireinio wirioneddol yn cynnwys system werthuso fwy cymhleth ac adborth parhaus rhwng yr adolygwyr a'r tîm datblygu AI. Nod yr anodiadau hyn yw gwneud ymatebion y model yn fwy defnyddiol, diogel, ac wedi'u halinio â gwerthoedd dynol.
Nid yw OpenAI, y sefydliad y tu ôl i ChatGPT, yn datgelu'n gyhoeddus union nifer yr adolygwyr sy'n ymwneud â'r broses fireinio. Fodd bynnag, o ystyried maint a chymhlethdod hyfforddi model iaith mor fawr, mae'n ddiogel dweud bod y broses yn debygol o gynnwys tîm sylweddol o adolygwyr.
Mae'r adolygwyr dynol hyn yn dilyn canllawiau a ddarperir gan OpenAI i adolygu a graddio allbynnau model posibl. Mae'n broses barhaus, ailadroddus lle defnyddir adborth adolygwyr i wella a mireinio'r model dros amser. Mae OpenAI yn cynnal dolen adborth gref gyda'r adolygwyr, gan gynnwys cyfarfodydd wythnosol i fynd i'r afael â chwestiynau a darparu eglurhad.
- Cymhlethdod y dasg: Byddai tasgau syml fel labelu delweddau neu gategoreiddio testun yn cymryd llai o amser fesul PDF, gan ganiatáu i un anodydd drin mwy o ffeiliau. Ar y llaw arall, byddai angen mwy o amser fesul dogfen ar gyfer tasgau cymhleth fel echdynnu endid manwl neu ddadansoddi semantig, ac felly mwy o anodyddion ar gyfer yr un nifer o PDFs.
- Hyd a Chymhlethdod y PDFs: Bydd PDF hirach neu fwy cymhleth yn cymryd mwy o amser i'w hanodi nag un byrrach neu symlach.
- Gofynion Ansawdd: Os oes angen manylder uchel, efallai y bydd angen cael anodyddion lluosog fesul PDF i groes-wirio anodiadau.
- Cyfyngiadau Amser: Os oes angen cwblhau'r anodiadau yn gyflym, byddai angen mwy o anodyddion.
Fel enghraifft ddamcaniaethol, gadewch i ni ddweud y gall anodydd anodi 5 PDF y dydd ar gyfer tasg benodol, ac mae'n gweithio 5 diwrnod yr wythnos. Yn yr achos hwn, i anodi 10,000 o PDFs, byddai angen 2000 o ddiwrnodau, neu tua 8 mlynedd, ar un anodydd.
Fodd bynnag, pe bai gennych dîm o 20 o anodyddion, gallent gwblhau'r dasg mewn tua 5 mis (gan dybio 20 diwrnod gwaith y mis). Gyda 100 o anodyddion, gellid cwblhau'r un dasg mewn tua mis.
Cofiwch, darluniadol yn unig yw'r niferoedd hyn a byddai cyflymder gwirioneddol yr anodi yn dibynnu ar y ffactorau a grybwyllwyd uchod. Yn ogystal, mae hyfforddi anodyddion yn briodol a rheoli ansawdd cyson yn hanfodol ar gyfer llwyddiant unrhyw brosiect anodi ar raddfa fawr.