Cywiro Dan Oruchwyliaeth (SFT)

Cywiro Dan Oruchwyliaeth (SFT)

Diffiniad

Mireinio dan oruchwyliaeth (SFT) yw'r broses o hyfforddi model wedi'i hyfforddi ymlaen llaw ar ddata wedi'i labelu ar gyfer tasg benodol, gan addasu'r cyfan neu ran o'i baramedrau.

Diben

Y pwrpas yw addasu modelau at ddibenion cyffredinol ar gyfer tasgau arbenigol gyda chywirdeb gwell.

Pwysigrwydd

  • Techneg graidd mewn NLP a thasgau gweledigaeth.
  • Angen data wedi'i labelu o ansawdd uchel.
  • Risgiau gor-ffitio gyda setiau data bach.
  • Yn aml yn rhagflaenydd i RLHF.

Sut Mae'n Gwaith

  1. Dewiswch fodel sydd wedi'i hyfforddi ymlaen llaw.
  2. Casglwch ddata wedi'i labelu ar gyfer y dasg darged.
  3. Hyfforddwch y model gyda dysgu dan oruchwyliaeth.
  4. Dilysu ar set brawf sydd wedi'i dal allan.
  5. Defnyddio a monitro perfformiad.

Enghreifftiau (Y Byd Go Iawn)

  • GPT wedi mireinio sgyrsiau gwasanaeth cwsmeriaid.
  • BERT wedi'i fireinio ar gyfer adnabod endid a enwir.
  • Trawsnewidyddion gweledigaeth wedi'u mireinio ar ddosbarthu delweddau meddygol.

Cyfeiriadau / Darllen Pellach

  • Devlin et al. “BERT: Rhag-hyfforddi Trawsnewidyddion Dwyffordd Dwfn.” NAACL 2019.
  • Dogfennaeth Trawsnewidyddion Wyneb Cofleidio.
  • Stanford CS224N: NLP gyda Dysgu Dwfn.
  • Beth yw SFT? Pam Mae'n Bwysig?

Dywedwch wrthym sut y gallwn helpu gyda'ch menter AI nesaf.