Diffiniad
Casglu data testun yw'r broses o gasglu iaith ysgrifenedig o ffynonellau fel llyfrau, gwefannau, neu gofnodion sgwrsio i'w defnyddio mewn hyfforddiant AI.
Diben
Y pwrpas yw creu corpora ar gyfer datblygu NLP ac LLM.
Pwysigrwydd
- Yn darparu deunydd crai ar gyfer modelau iaith.
- Yn codi materion hawlfraint a thrwyddedu.
- Mae amrywiaeth data yn dylanwadu ar degwch a chywirdeb.
- Rhaid hidlo cynnwys niweidiol neu amherthnasol.
Sut Mae'n Gwaith
- Nodwch ffynonellau testun (y we, dogfennau, trawsgrifiadau).
- Cropian neu grafu testun gyda chaniatâd.
- Glanhau a normaleiddio cynnwys.
- Storiwch gyda metadata er mwyn olrhain.
- Defnyddiwch mewn hyfforddiant cyn-hyfforddi neu fireinio.
Enghreifftiau (Y Byd Go Iawn)
- Cropian Cyffredin: corpws gwe mawr.
- Dympiau Wicipedia: set ddata testun strwythuredig.
- BooksCorpus: a ddefnyddir ar gyfer hyfforddi BERT.
Cyfeiriadau / Darllen Pellach
- Sefydliad Cropian Cyffredin.
- Jurafsky a Martin. Prosesu Lleferydd ac Iaith.
- ISO/IEC TR 20547-5: Pensaernïaeth Cyfeirio Data Mawr.
- Casglu Data Testun sy'n benodol i achos