Diffiniad
Mae Dysgu Atgyfnerthu o Adborth Dynol (RLHF) yn ddull ar gyfer alinio modelau AI â gwerthoedd dynol trwy ymgorffori barn ddynol yn y broses hyfforddi. Fe'i defnyddir yn aml i fireinio modelau iaith mawr.
Diben
Y pwrpas yw gwneud allbynnau AI yn fwy diogel, yn fwy defnyddiol, ac yn cyd-fynd â dewisiadau dynol. Mae RLHF yn gwella systemau sgwrsio trwy leihau ymatebion niweidiol, rhagfarnllyd, neu amherthnasol.
Pwysigrwydd
- Yn darparu goruchwyliaeth ddynol mewn hyfforddiant AI.
- Yn gwella dibynadwyedd systemau AI.
- Llafur-ddwys oherwydd anghenion anodi dynol.
- Yn gysylltiedig â modelu dewisiadau ac ymchwil aliniad.
Sut Mae'n Gwaith
- Casglu adborth dynol gan gymharu allbynnau modelau.
- Hyfforddi model gwobrwyo ar ddewisiadau dynol.
- Defnyddiwch ddysgu atgyfnerthu i fireinio'r model sylfaenol.
- Gwerthuso perfformiad yn erbyn nodau aliniad.
- Ailadroddwch gydag adborth ychwanegol.
Enghreifftiau (Y Byd Go Iawn)
- OpenAI ChatGPT: wedi'i fireinio gyda RLHF ar gyfer ymatebion mwy diogel.
- Deallusrwydd Artiffisial Cyfansoddiadol Anthropic: wedi'i arwain gan egwyddorion yn hytrach nag adborth uniongyrchol.
- InstructGPT: model OpenAI cynnar yn arddangos RLHF.
Cyfeiriadau / Darllen Pellach
- Christiano et al. “Dysgu Atgyfnerthu Dwfn o Ddewisiadau Dynol.” NeurIPS 2017.
- Papur OpenAI InstructGPT.
- Fframwaith Rheoli Risg AI NIST.
- Beth yw Dysgu Atgyfnerthu gydag Adborth Dynol (RLHF)?