Bob tro rydyn ni'n clywed gair neu'n darllen testun, mae gennym ni'r gallu naturiol i adnabod a chategoreiddio'r gair yn bobl, lle, lleoliad, gwerthoedd, a mwy. Gall bodau dynol adnabod gair yn gyflym, ei gategoreiddio a deall y cyd-destun. Er enghraifft, pan glywch y gair 'Steve Jobs,' gallwch feddwl ar unwaith am o leiaf tair i bedair nodwedd a gwahanu'r endid yn gategorïau,
- Person: Steve Jobs
- Cwmni: Afal
- Lleoliad: California
Gan nad oes gan gyfrifiaduron y gallu naturiol hwn, mae angen ein help ni arnynt i adnabod geiriau neu destun a'u categoreiddio. Mae'n lle Cydnabod Endid a Enwyd (NER) yn dod i chwarae.
Gadewch i ni gael dealltwriaeth gryno o NER a'i berthynas â NLP.
Beth yw Cydnabod Endid a Enwir?
Mae Cydnabod Endid a Enwir yn rhan o Brosesu Iaith Naturiol. Prif amcan NER yw prosesu data strwythuredig a distrwythur a dosbarthu'r endidau hyn a enwir yn gategorïau rhagnodedig. Mae rhai categorïau cyffredin yn cynnwys enw, lleoliad, cwmni, amser, gwerthoedd ariannol, digwyddiadau, a mwy.
Yn gryno, mae NER yn delio â:
- Adnabod/canfod endid a enwir – Adnabod gair neu gyfres o eiriau mewn dogfen.
- Dosbarthiad endid a enwir - Dosbarthu pob endid a ganfyddir yn gategorïau rhagnodedig.
Ond sut mae NER yn gysylltiedig â NLP?
Mae prosesu Iaith Naturiol yn helpu i ddatblygu peiriannau deallus sy'n gallu tynnu ystyr o leferydd a thestun. Mae Machine Learning yn helpu'r systemau deallus hyn i barhau i ddysgu trwy hyfforddi ar lawer iawn o iaith naturiol setiau data.
Yn gyffredinol, mae NLP yn cynnwys tri phrif gategori:
- Deall strwythur a rheolau'r iaith - Cystrawen
- Darganfod ystyr geiriau, testun, a lleferydd a nodi eu perthnasoedd - Semanteg
- Adnabod ac adnabod geiriau llafar a'u trawsnewid yn destun —Araith
Mae NER yn helpu yn y rhan semantig o NLP, echdynnu ystyr geiriau, eu hadnabod a'u lleoli ar sail eu perthnasoedd.
Enghreifftiau Cyffredin o NER
Rhai o'r enghreifftiau cyffredin o ragderfynedig categoreiddio endid yw:
Person: Michael Jackson, Oprah Winfrey, Barack Obama, Susan Sarandon
Lleoliad: Canada, Honolulu, Bangkok, Brasil, Caergrawnt
Sefydliad: Samsung, Disney, Prifysgol Iâl, Google
Amser: 15.35, 12 PM,
Mae categorïau eraill yn cynnwys gwerthoedd rhifiadol, Mynegiant, Cyfeiriadau E-bost, a Chyfleuster.
Amwysedd mewn Cydnabod Endid a Enwir
Mae'r categori y mae term yn perthyn iddo yn reddfol eithaf clir i fodau dynol. Fodd bynnag, nid yw hynny'n wir am gyfrifiaduron - maent yn dod ar draws problemau dosbarthu. Er enghraifft:
Dinas Manceinion (Sefydliad) ennill Tlws yr Uwch Gynghrair ond yn y frawddeg ganlynol defnyddir y drefn yn wahanol. Dinas Manceinion (Lleoliad) yn Bwerdy Tecstilau a diwydiannol.
Mae angen eich model NER data hyfforddi i gynnal yn gywir echdynnu endid a dosbarthiad. Os ydych chi'n hyfforddi'ch model ar Saesneg Shakespearaidd, does dim angen dweud, ni fydd yn gallu dehongli Instagram.
Dulliau NER Gwahanol
Prif nod a model NER yw labelu endidau mewn dogfennau testun a'u categoreiddio. Defnyddir y tri dull canlynol yn gyffredinol at y diben hwn. Fodd bynnag, gallwch ddewis cyfuno un neu fwy o ddulliau hefyd.
Y gwahanol ddulliau o greu systemau NER yw:
Systemau sy'n seiliedig ar eiriaduron
Efallai mai'r system sy'n seiliedig ar eiriaduron yw'r dull NER mwyaf syml a sylfaenol. Bydd yn defnyddio geiriadur gyda llawer o eiriau, cyfystyron, a chasgliad geirfa. Bydd y system yn gwirio a yw endid arbennig sy'n bresennol yn y testun hefyd ar gael yn yr eirfa. Trwy ddefnyddio algorithm paru llinynnol, perfformir trawswiriad o endidau.
Un anfantais o ddefnyddio'r dull hwn yw bod angen uwchraddio'r set ddata geirfa yn gyson er mwyn i'r model NER weithredu'n effeithiol.
Systemau sy'n seiliedig ar reolau
Yn y dull hwn, mae gwybodaeth yn cael ei echdynnu yn seiliedig ar set o reolau a osodwyd ymlaen llaw. Defnyddir dwy set sylfaenol o reolau,
Rheolau sy'n seiliedig ar batrwm - Fel y mae'r enw'n ei awgrymu, mae rheol sy'n seiliedig ar batrwm yn dilyn patrwm morffolegol neu linyn o eiriau a ddefnyddir yn y ddogfen.
Rheolau sy'n seiliedig ar gyd-destun - Mae rheolau sy'n seiliedig ar gyd-destun yn dibynnu ar ystyr neu gyd-destun y gair yn y ddogfen.
Systemau sy'n seiliedig ar ddysgu peiriannau
Mewn systemau dysgu peirianyddol, defnyddir modelu ystadegol i ganfod endidau. Defnyddir cynrychioliad seiliedig ar nodwedd o'r ddogfen destun yn y dull hwn. Gallwch oresgyn nifer o anfanteision y ddau ddull cyntaf gan y gall y model eu hadnabod mathau o endid er gwaethaf mân amrywiadau yn eu sillafu.
Cymwysiadau NER
Mae gan NER sawl achos defnydd mewn sawl maes sy'n ymwneud â Phrosesu Iaith Naturiol a chreu setiau data hyfforddi ar gyfer dysgu peiriant ac dysgu dwfn atebion. Rhai o gymwysiadau NER yw:
Cymorth i Gwsmeriaid Syml
Gall system NER sylwi'n hawdd ar gwynion, ymholiadau ac adborth cwsmeriaid perthnasol yn seiliedig ar wybodaeth hanfodol fel enwau cynnyrch, manylebau, lleoliad cangen, a mwy. Mae'r gŵyn neu'r adborth yn cael ei ddosbarthu'n briodol a'i ddargyfeirio i'r adran gywir trwy hidlo allweddeiriau blaenoriaeth.
Adnoddau Dynol Effeithlon
Mae NER yn helpu timau Adnoddau Dynol i wella eu proses llogi a lleihau'r llinellau amser trwy grynhoi ailddechrau ymgeiswyr yn gyflym. Gall offer NER sganio'r ailddechrau a thynnu gwybodaeth berthnasol - enw, oedran, cyfeiriad, cymhwyster, coleg, ac ati.
Yn ogystal, gall yr adran AD hefyd ddefnyddio offer NER i symleiddio'r llifoedd gwaith mewnol trwy hidlo cwynion gweithwyr a'u hanfon ymlaen at y penaethiaid adran dan sylw.
Dosbarthiad Cynnwys Syml
Mae dosbarthu cynnwys yn dasg ddigrif i ddarparwyr newyddion. Mae dosbarthu'r cynnwys i wahanol gategorïau yn ei gwneud hi'n haws darganfod, cael mewnwelediad, nodi tueddiadau, a deall y pynciau. A Enwedig Cydnabod Endid gall yr offeryn fod yn ddefnyddiol i ddarparwyr newyddion. Gall sganio llawer o erthyglau, nodi allweddeiriau blaenoriaeth, a thynnu gwybodaeth yn seiliedig ar y personau, y sefydliad, y lleoliad, a mwy.
Optimeiddio Peiriannau Chwilio
NER helpu i symleiddio a gwella cyflymder a pherthnasedd canlyniadau chwilio. Yn lle rhedeg yr ymholiad chwilio am filoedd o erthyglau, gall model NER redeg yr ymholiad unwaith ac arbed y canlyniadau. Felly, yn seiliedig ar y tagiau yn yr ymholiad chwilio, gellir codi'r erthyglau sy'n gysylltiedig â'r ymholiad yn gyflym.
Argymhelliad Cynnwys Cywir
Mae sawl cymhwysiad modern yn dibynnu ar offer NER i ddarparu profiad cwsmer wedi'i optimeiddio ac wedi'i addasu. Er enghraifft, mae Netflix yn darparu argymhellion personol yn seiliedig ar hanes chwilio a gweld defnyddwyr gan ddefnyddio cydnabyddiaeth endid a enwir.
Mae Cydnabod Endid a Enwir yn gwneud eich dysgu peiriant modelau yn fwy effeithlon a dibynadwy. Fodd bynnag, mae angen setiau data hyfforddi o safon arnoch er mwyn i'ch modelau weithio ar eu lefel optimaidd a chyflawni'r nodau a fwriadwyd. Y cyfan sydd ei angen arnoch yw partner gwasanaeth profiadol a all ddarparu setiau data o ansawdd i chi yn barod i'w defnyddio. Os yw hynny'n wir, Shaip yw eich bet orau eto. Cysylltwch â ni am setiau data NER cynhwysfawr i'ch helpu chi i ddatblygu atebion ML effeithlon ac uwch ar gyfer eich modelau AI.P