Tocynnu mewn LLMs

Tocynnu mewn LLMs

Diffiniad

Tocyneiddio yw'r broses o rannu testun yn unedau llai (tocynnau) fel geiriau, is-eiriau, neu gymeriadau, sy'n gwasanaethu fel mewnbynnau i fodelau iaith.

Diben

Y pwrpas yw safoni testun yn gydrannau y gellir eu rheoli ar gyfer hyfforddi a chasglu mewn LLMs.

Pwysigrwydd

  • Cam cyn-brosesu sylfaenol yn NLP.
  • Yn effeithio ar faint ac effeithlonrwydd geirfa.
  • Mae dewisiadau tocynnu yn effeithio ar gywirdeb a pherfformiad.
  • Yn gysylltiedig ag ymgorfforiadau a hyfforddiant modelu.

Sut Mae'n Gwaith

  1. Diffinio cynllun tocynnu (gair, is-air, cymeriad).
  2. Defnyddiwch docynydd i fewnbynnu testun.
  3. Mapio tocynnau i IDau rhifiadol.
  4. Bwydo tocynnau i'r model i'w prosesu.
  5. Trosi tocynnau allbwn yn ôl yn destun.

Enghreifftiau (Y Byd Go Iawn)

  • Amgodio Pâr Beit (BPE) a ddefnyddir mewn modelau GPT.
  • WordPiece a ddefnyddir yn BERT.
  • SentencePiece a ddefnyddir mewn NLP amlieithog.

Cyfeiriadau / Darllen Pellach

  • Sennrich et al. “Cyfieithu Peirianyddol Niwral o Eiriau Prin gydag Unedau Is-eiriau.” ACL.
  • Dogfennaeth Google SentencePiece.
  • Jurafsky a Martin. Prosesu Lleferydd ac Iaith.

Dywedwch wrthym sut y gallwn helpu gyda'ch menter AI nesaf.