Mae prosesu iaith naturiol yn dalp hanfodol yn yr arfwisg dysgu peiriant. Fodd bynnag, mae angen llawer iawn o ddata a hyfforddiant arno er mwyn i'r model weithio'n dda. Un o'r materion arwyddocaol gyda NLP yw'r diffyg setiau data hyfforddi a all gwmpasu meysydd diddordeb helaeth yn y parth.
Os ydych chi'n cychwyn yn y maes helaeth hwn, efallai y bydd hi'n anodd ac yn ymarferol ddiangen i chi greu eich setiau data. Yn enwedig pan mae ansawdd NLP setiau data ar gael i hyfforddi eich modelau dysgu peiriant yn seiliedig ar eu pwrpas.
Mae llechi i farchnad NLP dyfu mewn CAGR o 11.7% yn ystod 2018 a 2026 i'w chyrraedd $ 28.6 Biliwn gan 2026. Diolch i'r galw cynyddol am NLP a dysgu â pheiriannau, mae bellach yn bosibl cael setiau data o ansawdd ar gyfer dadansoddi teimladau, adolygiadau, dadansoddi cwestiynau ac atebion, a setiau data dadansoddi lleferydd.
Setiau Data NLP ar gyfer Dysgu Peiriant Gallwch Chi Ymddiried ynddo
Gan fod setiau data di-ri - sy'n canolbwyntio ar amrywiol anghenion - yn cael eu rhyddhau bron bob dydd, gall fod yn heriol cyrchu setiau data o ansawdd, dibynadwy a gorau. Yma, rydym wedi gwneud y gwaith yn haws i chi, gan ein bod wedi cyflwyno setiau data wedi'u curadu i chi ar wahân yn seiliedig ar y categorïau y maent yn eu gwasanaethu.
cyffredinol
Spambase UCI (Dolen)
Mae gan Spambase, a grëwyd yn y Hewlett-Packard Labs, gasgliad o negeseuon e-bost sbam gan y defnyddwyr, gyda'r nod o ddatblygu hidlydd sbam wedi'i bersonoli. Mae ganddo fwy na 4600 o arsylwadau o negeseuon e-bost, y mae bron i 1820 ohonynt yn sbam.
Set ddata Enron (Dolen)
Mae gan set ddata Enron gasgliad helaeth o negeseuon e-bost di-enw 'go iawn' sydd ar gael i'r cyhoedd i hyfforddi eu modelau dysgu peiriannau. Mae ganddo fwy na hanner miliwn o negeseuon e-bost gan dros 150 o ddefnyddwyr, uwch reolwyr Enron yn bennaf. Mae'r set ddata hon ar gael i'w defnyddio mewn fformatau strwythuredig a heb strwythur. Er mwyn sbriwsio'r data anstrwythuredig, mae'n rhaid i chi gymhwyso technegau prosesu data.
Set ddata Systemau Argymell (Dolen)
Mae set ddata'r System Argymell yn gasgliad enfawr o setiau data amrywiol sy'n cynnwys gwahanol nodweddion megis,
- Adolygiadau Cynnyrch
- Sgoriau seren
- Olrhain ffitrwydd
- Data caneuon
- Rhwydweithiau cymdeithasol
- Amserlenni
- Rhyngweithiadau defnyddiwr / eitem
- Data GPS
Dadansoddiad Sentiment
Geiriaduron ar gyfer Ffilmiau a Chyllid (Dolen)
Mae'r set ddata Geiriaduron ar gyfer Ffilmiau a Chyllid yn darparu geiriaduron parth-benodol ar gyfer polaredd cadarnhaol neu negyddol mewn llenwadau Cyllid ac adolygiadau ffilm. Daw'r geiriaduron hyn o lenwadau IMDb ac US Form-8.
Syniad 140 (Dolen)
Mae gan Sentiment 140 fwy na 160,000 o drydariadau gyda gwahanol emosiynau wedi'u categoreiddio mewn 6 maes gwahanol: dyddiad trydar, polaredd, testun, enw defnyddiwr, ID, ac ymholiad. Mae'r set ddata hon yn ei gwneud hi'n bosibl i chi ddarganfod teimlad brand, cynnyrch, neu hyd yn oed bwnc sy'n seiliedig ar weithgaredd Twitter. Gan fod y set ddata hon yn cael ei chreu'n awtomatig, yn wahanol i drydariadau eraill sydd wedi'u hanodi gan bobl, mae'n dosbarthu tweets ag emosiynau cadarnhaol ac emosiynau negyddol fel rhai anffafriol.
Set ddata Sentiment Aml-Barth (Dolen)
Mae'r set ddata teimladau aml-barth hon yn ystorfa o adolygiadau Amazon ar gyfer cynhyrchion amrywiol. Mae gan rai categorïau cynnyrch, fel llyfrau, adolygiadau sy'n rhedeg i filoedd, tra nad oes gan eraill ond ychydig gannoedd o adolygiadau. Ar ben hynny, gellir trosi'r adolygiadau â sgôr seren yn labeli deuaidd.
Testun
Corpws Wiki QA (Dolen)
Wedi'i greu i helpu'r ymchwil cwestiwn ac ateb parth agored, mae'r WiKi QA Corpus yn un o'r setiau data mwyaf helaeth sydd ar gael i'r cyhoedd. Wedi'i lunio o logiau ymholiadau peiriannau chwilio Bing, mae'n dod gyda pharau cwestiwn-ac-ateb. Mae ganddo fwy na 3000 o gwestiynau a 1500 o frawddegau ateb wedi'u labelu.
Set Ddata Adroddiadau Achos Cyfreithiol (Dolen)
Mae gan set ddata Adroddiadau Achos Cyfreithiol gasgliad o 4000 o achosion cyfreithiol a gellir eu defnyddio i hyfforddi ar gyfer crynhoi testun yn awtomatig a dadansoddi dyfyniadau. Defnyddir pob dogfen, cyfeirnodau, dosbarthiadau dyfynnu, dyfyniadau dal, a mwy.
Perygl (Dolen)
Mae set ddata jeopardy yn gasgliad o fwy na 200,000 o gwestiynau sy'n ymddangos yn y sioe deledu gwis boblogaidd a ddaeth ynghyd gan ddefnyddiwr Reddit. Mae pob pwynt data yn cael ei ddosbarthu yn ôl ei ddyddiad a ddarlledir, rhif y bennod, ei werth, ei rownd a'i gwestiwn / ateb.
Araith Sain
Corpora Wikipedia Llafar (Dolen)
Mae'r set ddata hon yn berffaith i bawb sy'n edrych i fynd y tu hwnt i'r iaith Saesneg. Mae gan y set ddata hon gasgliad o erthyglau a siaredir yn Iseldireg ac Almaeneg a Saesneg. Mae ganddo ystod amrywiol o bynciau a setiau siaradwr sy'n rhedeg i gannoedd o oriau.
2000 HUB5 Saesneg (Dolen)
Mae gan set ddata Saesneg 2000 HUB5 40 o drawsgrifiadau sgwrs ffôn yn yr iaith Saesneg. Darperir y data gan y Sefydliad Cenedlaethol Safonau a Thechnoleg, a'i brif ffocws yw cydnabod lleferydd sgwrsio a throsi lleferydd yn destun.
LibriAraith (Dolen)
Mae set ddata LibriSpeech yn gasgliad o bron i 1000 awr o araith Saesneg wedi'i chymryd a'i segmentu'n gywir gan bynciau i benodau o lyfrau sain, gan ei gwneud yn offeryn perffaith ar gyfer Prosesu Iaith Naturiol.
Adolygiadau
Adolygiadau Yelp (Dolen)
Mae gan set ddata Yelp gasgliad helaeth o tua 8.5 miliwn o adolygiadau o 160,000 a mwy o fusnesau, eu hadolygiadau, a data defnyddwyr. Gellir defnyddio'r adolygiadau i hyfforddi'ch modelau ar ddadansoddi teimladau. Ar ben hynny, mae gan y set ddata hon fwy na 200,000 o luniau sy'n cwmpasu wyth lleoliad metropolitan.
Adolygiadau IMDB (Dolen)
Mae adolygiadau IMDB ymhlith y setiau data mwyaf poblogaidd sy'n cynnwys gwybodaeth gast, graddfeydd, disgrifiad, a genre ar gyfer mwy na 50 mil o ffilmiau. Gellir defnyddio'r set ddata hon i brofi a hyfforddi eich modelau dysgu peiriant.
Set Ddata Adolygiadau a Sgoriau Amazon (Dolen)
Mae set ddata adolygu a graddio Amazon yn cynnwys casgliad gwerthfawr o fetadata ac adolygiadau o wahanol gynhyrchion o Amazon a gasglwyd rhwng 1996 a 2014 - tua 142.8 miliwn o gofnodion. Mae'r metadata yn cynnwys y pris, disgrifiad o'r cynnyrch, brand, categori, a mwy, tra bod gan yr adolygiadau ansawdd testun, defnyddioldeb y testun, graddfeydd, a mwy.
Felly, pa set ddata ydych chi wedi dewis hyfforddi'ch model dysgu peiriant arni?
Wrth i ni fynd, byddwn yn eich gadael gydag a pro-tip.
Gwnewch yn siŵr eich bod yn mynd trwy'r ffeil README yn drylwyr cyn dewis set ddata NLP ar gyfer eich anghenion. Bydd y set ddata yn cynnwys yr holl wybodaeth angenrheidiol y gallai fod ei hangen arnoch, megis cynnwys y set ddata, y paramedrau amrywiol y mae'r data wedi'u categoreiddio arnynt, ac achosion defnydd tebygol y set ddata.
Waeth bynnag y modelau rydych chi'n eu hadeiladu, mae yna obaith cyffrous o integreiddio ein peiriannau yn agosach ac yn gynhenid â'n bywydau. Gyda NLP, mae'r posibiliadau ar gyfer busnes, ffilmiau, adnabod lleferydd, cyllid a mwy yn cael eu cynyddu yn niferus. Os ydych chi'n chwilio am fwy o setiau data o'r fath Cliciwch Yma.