Casglu Data Testun

Casglu Data Testun

Diffiniad

Casglu data testun yw'r broses o gasglu iaith ysgrifenedig o ffynonellau fel llyfrau, gwefannau, neu gofnodion sgwrsio i'w defnyddio mewn hyfforddiant AI.

Diben

Y pwrpas yw creu corpora ar gyfer datblygu NLP ac LLM.

Pwysigrwydd

  • Yn darparu deunydd crai ar gyfer modelau iaith.
  • Yn codi materion hawlfraint a thrwyddedu.
  • Mae amrywiaeth data yn dylanwadu ar degwch a chywirdeb.
  • Rhaid hidlo cynnwys niweidiol neu amherthnasol.

Sut Mae'n Gwaith

  1. Nodwch ffynonellau testun (y we, dogfennau, trawsgrifiadau).
  2. Cropian neu grafu testun gyda chaniatâd.
  3. Glanhau a normaleiddio cynnwys.
  4. Storiwch gyda metadata er mwyn olrhain.
  5. Defnyddiwch mewn hyfforddiant cyn-hyfforddi neu fireinio.

Enghreifftiau (Y Byd Go Iawn)

  • Cropian Cyffredin: corpws gwe mawr.
  • Dympiau Wicipedia: set ddata testun strwythuredig.
  • BooksCorpus: a ddefnyddir ar gyfer hyfforddi BERT.

Cyfeiriadau / Darllen Pellach

Dywedwch wrthym sut y gallwn helpu gyda'ch menter AI nesaf.