Diffiniad
Dosbarthu dogfennau yw'r broses o gategoreiddio dogfennau testun i ddosbarthiadau wedi'u diffinio ymlaen llaw gan ddefnyddio dysgu peirianyddol neu ddulliau seiliedig ar reolau. Gall dosbarthiadau gynnwys pynciau, canfod sbam, neu deimlad.
Diben
Y pwrpas yw trefnu a hidlo cyfrolau mawr o destun yn effeithlon. Mae'n cefnogi chwilio, cymedroli cynnwys, a llif gwaith awtomataidd.
Pwysigrwydd
- Yn arbed amser trwy awtomeiddio categoreiddio.
- Allwedd ar gyfer hidlo sbam e-bost, darganfod cyfreithiol, a rheoli gwybodaeth.
- Gall gwallau arwain at ddogfennau wedi'u colli neu eu camddosbarthu.
- Yn gysylltiedig â thasgau NLP fel dadansoddi teimlad.
Sut Mae'n Gwaith
- Casglu a rhagbrosesu dogfennau testun.
- Cynrychioli testun gyda nodweddion (e.e., TF-IDF, mewnosodiadau).
- Modelau dosbarthu trenau (SVMs, rhwydweithiau niwral).
- Dilysu cywirdeb y model ar setiau prawf wedi'u labelu.
- Defnyddio dosbarthwr i gategoreiddio dogfennau newydd.
Enghreifftiau (Y Byd Go Iawn)
- Hidlydd sbam Gmail: yn dosbarthu negeseuon e-bost yn sbam a negeseuon nad ydynt yn sbam.
- Casglwyr newyddion: categoreiddio erthyglau yn ôl pwnc.
- Technoleg gyfreithiol: yn dosbarthu dogfennau i'w darganfod a'u cydymffurfio.
Cyfeiriadau / Darllen Pellach
- Manning et al. Cyflwyniad i Adalw Gwybodaeth. Gwasg Prifysgol Caergrawnt.
- Jurafsky a Martin. Prosesu Lleferydd ac Iaith. Stanford.
- Trafodion IEEE ar Beirianneg Gwybodaeth a Data.