Diffiniad
Mireinio dan oruchwyliaeth (SFT) yw'r broses o hyfforddi model wedi'i hyfforddi ymlaen llaw ar ddata wedi'i labelu ar gyfer tasg benodol, gan addasu'r cyfan neu ran o'i baramedrau.
Diben
Y pwrpas yw addasu modelau at ddibenion cyffredinol ar gyfer tasgau arbenigol gyda chywirdeb gwell.
Pwysigrwydd
- Techneg graidd mewn NLP a thasgau gweledigaeth.
- Angen data wedi'i labelu o ansawdd uchel.
- Risgiau gor-ffitio gyda setiau data bach.
- Yn aml yn rhagflaenydd i RLHF.
Sut Mae'n Gwaith
- Dewiswch fodel sydd wedi'i hyfforddi ymlaen llaw.
- Casglwch ddata wedi'i labelu ar gyfer y dasg darged.
- Hyfforddwch y model gyda dysgu dan oruchwyliaeth.
- Dilysu ar set brawf sydd wedi'i dal allan.
- Defnyddio a monitro perfformiad.
Enghreifftiau (Y Byd Go Iawn)
- GPT wedi mireinio sgyrsiau gwasanaeth cwsmeriaid.
- BERT wedi'i fireinio ar gyfer adnabod endid a enwir.
- Trawsnewidyddion gweledigaeth wedi'u mireinio ar ddosbarthu delweddau meddygol.
Cyfeiriadau / Darllen Pellach
- Devlin et al. “BERT: Rhag-hyfforddi Trawsnewidyddion Dwyffordd Dwfn.” NAACL 2019.
- Dogfennaeth Trawsnewidyddion Wyneb Cofleidio.
- Stanford CS224N: NLP gyda Dysgu Dwfn.
- Beth yw SFT? Pam Mae'n Bwysig?