Set Ddata NLP ar gyfer ML

15 Setiau Data NLP Gorau i'ch hyfforddi Modelau Prosesu Iaith Naturiol

Mae prosesu iaith naturiol yn dalp hanfodol yn yr arfwisg dysgu peiriant. Fodd bynnag, mae angen llawer iawn o ddata a hyfforddiant arno er mwyn i'r model weithio'n dda. Un o'r materion arwyddocaol gyda NLP yw'r diffyg setiau data hyfforddi a all gwmpasu meysydd diddordeb helaeth yn y parth.

Os ydych chi'n cychwyn yn y maes helaeth hwn, efallai y bydd hi'n anodd ac yn ymarferol ddiangen i chi greu eich setiau data. Yn enwedig pan mae ansawdd NLP setiau data ar gael i hyfforddi eich modelau dysgu peiriant yn seiliedig ar eu pwrpas.

Mae llechi i farchnad NLP dyfu mewn CAGR o 11.7% yn ystod 2018 a 2026 i'w chyrraedd $ 28.6 Biliwn gan 2026. Diolch i'r galw cynyddol am NLP a dysgu â pheiriannau, mae bellach yn bosibl cael setiau data o ansawdd ar gyfer dadansoddi teimladau, adolygiadau, dadansoddi cwestiynau ac atebion, a setiau data dadansoddi lleferydd.

Setiau Data NLP ar gyfer Dysgu Peiriant Gallwch Chi Ymddiried ynddo

Gan fod setiau data di-ri - sy'n canolbwyntio ar amrywiol anghenion - yn cael eu rhyddhau bron bob dydd, gall fod yn heriol cyrchu setiau data o ansawdd, dibynadwy a gorau. Yma, rydym wedi gwneud y gwaith yn haws i chi, gan ein bod wedi cyflwyno setiau data wedi'u curadu i chi ar wahân yn seiliedig ar y categorïau y maent yn eu gwasanaethu.

cyffredinol

Mae gan Spambase, a grëwyd yn y Hewlett-Packard Labs, gasgliad o negeseuon e-bost sbam gan y defnyddwyr, gyda'r nod o ddatblygu hidlydd sbam wedi'i bersonoli. Mae ganddo fwy na 4600 o arsylwadau o negeseuon e-bost, y mae bron i 1820 ohonynt yn sbam.

Mae gan set ddata Enron gasgliad helaeth o negeseuon e-bost di-enw 'go iawn' sydd ar gael i'r cyhoedd i hyfforddi eu modelau dysgu peiriannau. Mae ganddo fwy na hanner miliwn o negeseuon e-bost gan dros 150 o ddefnyddwyr, uwch reolwyr Enron yn bennaf. Mae'r set ddata hon ar gael i'w defnyddio mewn fformatau strwythuredig a heb strwythur. Er mwyn sbriwsio'r data anstrwythuredig, mae'n rhaid i chi gymhwyso technegau prosesu data.

  • Set ddata Systemau Argymell (Dolen)

Mae set ddata'r System Argymell yn gasgliad enfawr o setiau data amrywiol sy'n cynnwys gwahanol nodweddion megis,

  • Adolygiadau Cynnyrch
  • Sgoriau seren
  • Olrhain ffitrwydd
  • Data caneuon
  • Rhwydweithiau cymdeithasol
  • Amserlenni
  • Rhyngweithiadau defnyddiwr / eitem
  • Data GPS

Dadansoddiad Sentiment

  • Geiriaduron ar gyfer Ffilmiau a Chyllid (Dolen)

Dadansoddiad sentiment
Mae'r set ddata Geiriaduron ar gyfer Ffilmiau a Chyllid yn darparu geiriaduron parth-benodol ar gyfer polaredd cadarnhaol neu negyddol mewn llenwadau Cyllid ac adolygiadau ffilm. Daw'r geiriaduron hyn o lenwadau IMDb ac US Form-8.

Mae gan Sentiment 140 fwy na 160,000 o drydariadau gyda gwahanol emosiynau wedi'u categoreiddio mewn 6 maes gwahanol: dyddiad trydar, polaredd, testun, enw defnyddiwr, ID, ac ymholiad. Mae'r set ddata hon yn ei gwneud hi'n bosibl i chi ddarganfod teimlad brand, cynnyrch, neu hyd yn oed bwnc sy'n seiliedig ar weithgaredd Twitter. Gan fod y set ddata hon yn cael ei chreu'n awtomatig, yn wahanol i drydariadau eraill sydd wedi'u hanodi gan bobl, mae'n dosbarthu tweets ag emosiynau cadarnhaol ac emosiynau negyddol fel rhai anffafriol.

  • Set ddata Sentiment Aml-Barth (Dolen)

Mae'r set ddata teimladau aml-barth hon yn ystorfa o adolygiadau Amazon ar gyfer cynhyrchion amrywiol. Mae gan rai categorïau cynnyrch, fel llyfrau, adolygiadau sy'n rhedeg i filoedd, tra nad oes gan eraill ond ychydig gannoedd o adolygiadau. Ar ben hynny, gellir trosi'r adolygiadau â sgôr seren yn labeli deuaidd.

Gadewch i ni drafod eich gofyniad Data Hyfforddi AI heddiw.

Testun

Wedi'i greu i helpu'r ymchwil cwestiwn ac ateb parth agored, mae'r WiKi QA Corpus yn un o'r setiau data mwyaf helaeth sydd ar gael i'r cyhoedd. Wedi'i lunio o logiau ymholiadau peiriannau chwilio Bing, mae'n dod gyda pharau cwestiwn-ac-ateb. Mae ganddo fwy na 3000 o gwestiynau a 1500 o frawddegau ateb wedi'u labelu.

  • Set Ddata Adroddiadau Achos Cyfreithiol (Dolen)

Mae gan set ddata Adroddiadau Achos Cyfreithiol gasgliad o 4000 o achosion cyfreithiol a gellir eu defnyddio i hyfforddi ar gyfer crynhoi testun yn awtomatig a dadansoddi dyfyniadau. Defnyddir pob dogfen, cyfeirnodau, dosbarthiadau dyfynnu, dyfyniadau dal, a mwy.

Mae set ddata jeopardy yn gasgliad o fwy na 200,000 o gwestiynau sy'n ymddangos yn y sioe deledu gwis boblogaidd a ddaeth ynghyd gan ddefnyddiwr Reddit. Mae pob pwynt data yn cael ei ddosbarthu yn ôl ei ddyddiad a ddarlledir, rhif y bennod, ei werth, ei rownd a'i gwestiwn / ateb.

Araith Sain

Araith sain Mae'r set ddata hon yn berffaith i bawb sy'n edrych i fynd y tu hwnt i'r iaith Saesneg. Mae gan y set ddata hon gasgliad o erthyglau a siaredir yn Iseldireg ac Almaeneg a Saesneg. Mae ganddo ystod amrywiol o bynciau a setiau siaradwr sy'n rhedeg i gannoedd o oriau.

Mae gan set ddata Saesneg 2000 HUB5 40 o drawsgrifiadau sgwrs ffôn yn yr iaith Saesneg. Darperir y data gan y Sefydliad Cenedlaethol Safonau a Thechnoleg, a'i brif ffocws yw cydnabod lleferydd sgwrsio a throsi lleferydd yn destun.

Mae set ddata LibriSpeech yn gasgliad o bron i 1000 awr o araith Saesneg wedi'i chymryd a'i segmentu'n gywir gan bynciau i benodau o lyfrau sain, gan ei gwneud yn offeryn perffaith ar gyfer Prosesu Iaith Naturiol.

Adolygiadau

Mae gan set ddata Yelp gasgliad helaeth o tua 8.5 miliwn o adolygiadau o 160,000 a mwy o fusnesau, eu hadolygiadau, a data defnyddwyr. Gellir defnyddio'r adolygiadau i hyfforddi'ch modelau ar ddadansoddi teimladau. Ar ben hynny, mae gan y set ddata hon fwy na 200,000 o luniau sy'n cwmpasu wyth lleoliad metropolitan.

Mae adolygiadau IMDB ymhlith y setiau data mwyaf poblogaidd sy'n cynnwys gwybodaeth gast, graddfeydd, disgrifiad, a genre ar gyfer mwy na 50 mil o ffilmiau. Gellir defnyddio'r set ddata hon i brofi a hyfforddi eich modelau dysgu peiriant.

  • Set Ddata Adolygiadau a Sgoriau Amazon (Dolen)

Mae set ddata adolygu a graddio Amazon yn cynnwys casgliad gwerthfawr o fetadata ac adolygiadau o wahanol gynhyrchion o Amazon a gasglwyd rhwng 1996 a 2014 - tua 142.8 miliwn o gofnodion. Mae'r metadata yn cynnwys y pris, disgrifiad o'r cynnyrch, brand, categori, a mwy, tra bod gan yr adolygiadau ansawdd testun, defnyddioldeb y testun, graddfeydd, a mwy.

Felly, pa set ddata ydych chi wedi dewis hyfforddi'ch model dysgu peiriant arni?

Wrth i ni fynd, byddwn yn eich gadael gydag a pro-tip. 

Gwnewch yn siŵr eich bod yn mynd trwy'r ffeil README yn drylwyr cyn dewis set ddata NLP ar gyfer eich anghenion. Bydd y set ddata yn cynnwys yr holl wybodaeth angenrheidiol y gallai fod ei hangen arnoch, megis cynnwys y set ddata, y paramedrau amrywiol y mae'r data wedi'u categoreiddio arnynt, ac achosion defnydd tebygol y set ddata.

Waeth bynnag y modelau rydych chi'n eu hadeiladu, mae yna obaith cyffrous o integreiddio ein peiriannau yn agosach ac yn gynhenid ​​â'n bywydau. Gyda NLP, mae'r posibiliadau ar gyfer busnes, ffilmiau, adnabod lleferydd, cyllid a mwy yn cael eu cynyddu yn niferus. Os ydych chi'n chwilio am fwy o setiau data o'r fath Cliciwch Yma.

Cyfran Gymdeithasol

Efallai yr hoffech