Diffiniad
Tocyneiddio yw'r broses o rannu testun yn unedau llai (tocynnau) fel geiriau, is-eiriau, neu gymeriadau, sy'n gwasanaethu fel mewnbynnau i fodelau iaith.
Diben
Y pwrpas yw safoni testun yn gydrannau y gellir eu rheoli ar gyfer hyfforddi a chasglu mewn LLMs.
Pwysigrwydd
- Cam cyn-brosesu sylfaenol yn NLP.
- Yn effeithio ar faint ac effeithlonrwydd geirfa.
- Mae dewisiadau tocynnu yn effeithio ar gywirdeb a pherfformiad.
- Yn gysylltiedig ag ymgorfforiadau a hyfforddiant modelu.
Sut Mae'n Gwaith
- Diffinio cynllun tocynnu (gair, is-air, cymeriad).
- Defnyddiwch docynydd i fewnbynnu testun.
- Mapio tocynnau i IDau rhifiadol.
- Bwydo tocynnau i'r model i'w prosesu.
- Trosi tocynnau allbwn yn ôl yn destun.
Enghreifftiau (Y Byd Go Iawn)
- Amgodio Pâr Beit (BPE) a ddefnyddir mewn modelau GPT.
- WordPiece a ddefnyddir yn BERT.
- SentencePiece a ddefnyddir mewn NLP amlieithog.
Cyfeiriadau / Darllen Pellach
- Sennrich et al. “Cyfieithu Peirianyddol Niwral o Eiriau Prin gydag Unedau Is-eiriau.” ACL.
- Dogfennaeth Google SentencePiece.
- Jurafsky a Martin. Prosesu Lleferydd ac Iaith.