Setiau Data Llawysgrifen

Y 15 Set Data Llawysgrifen Ffynhonnell Agored Orau i Hyfforddi'ch modelau ML

Mae byd busnes yn trawsnewid yn gyflym iawn, ac eto nid yw’r trawsnewid digidol hwn bron mor eang ag yr hoffem iddo fod. Mae pobl yn dal i drin dogfennau ffisegol yn eu gweithrediadau o ddydd i ddydd, o gorfforaethau mawr i fusnesau bach. Er bod amlder y defnydd wedi lleihau'n sylweddol, nid yw wedi'i ddileu'n llwyr. Yn lle'r broses llafurus o sganio dogfennau ar gyfer defnydd digidol, gan ddefnyddio'r diweddaraf OCR yn amser-effeithlon ac yn effeithiol.

Gellir priodoli'r cynnydd mewn defnydd adnabod cymeriad optegol yn bennaf i'r cynnydd mewn cynhyrchu systemau adnabod awtomatig. O ganlyniad, mae gwerth marchnad fyd-eang technoleg OCR, wedi'i begio ar $ 8.93 biliwn yn 2021, rhagwelir y bydd yn tyfu ar CAGR o 15.4% rhwng 2022 a 2030.

Ond beth yn union yw technoleg OCR? A pham ei fod yn newidiwr gêm i fusnesau sy'n datblygu modelau AI effeithlon? Gadewch i ni gael gwybod.

Beth yw OCR?

Cyfeirir ato fel arall fel adnabod testun, OCR neu Gydnabod Cymeriad Optegol yn rhaglen sy'n echdynnu data printiedig neu ysgrifenedig o ddogfennau wedi'u sganio, ffeiliau PDF delwedd yn unig, a nodiadau mewn llawysgrifen i fformat y gall peiriant ei ddarllen. Mae'r meddalwedd yn tynnu pob llythyren o'r ddelwedd ac yn eu cyfuno'n eiriau a brawddegau, gan ei gwneud hi'n hawdd cyrchu a golygu'r dogfennau'n ddigidol.

Beth yw setiau data ffynhonnell agored?

Mae yna sawl man lle mae gan dechnoleg OCR botensial mawr i gael ei defnyddio. Mae rhai lleoedd yn cynnwys y maes awyr, cyhoeddi eLyfrau, hysbysebion, banciau, a systemau cadwyn gyflenwi. Fodd bynnag, er mwyn i'r ceisiadau gyflawni eu diben, mae angen iddynt gael eu hyfforddi ar brosiectau penodol Setiau data Adnabod Cymeriad Optegol.

Mae effeithlonrwydd y cais yn dibynnu i raddau helaeth ar ansawdd y set ddata a'r fethodoleg hyfforddi dan sylw. Fodd bynnag, mae dod o hyd i ansawdd digidol a setiau data llawysgrifen yn anodd i'r cais. Felly, mae llawer o gwmnïau'n defnyddio setiau data ffynhonnell agored neu rhad ac am ddim i'w defnyddio yn lle rhai perchnogol.

Manteision a Heriau Setiau Data Ffynhonnell Agored

Mae angen i fusnesau osod y manteision a'r heriau yn erbyn ei gilydd i ddeall a oes rhaid iddynt ddewis data am ddim i'w ddefnyddio ar gyfer eu cymwysiadau ML.

Manteision

  • Mae'r data ar gael yn hawdd. Oherwydd argaeledd data, mae cost datblygu'r cais yn cael ei leihau'n sylweddol.
  • Mae'r amser a'r ymdrech a dreulir yn casglu data ar gyfer y rhaglen yn cael eu lleihau'n sylweddol gan fod y set ddata ar gael yn rhwydd.
  • Mae digonedd o fforymau cymunedol neu grwpiau cymorth sy'n helpu i ddysgu, addasu a gwneud y gorau o'r set ddata.
  • Un o brif fanteision y set ddata ffynhonnell agored yw nad yw'n gosod unrhyw gyfyngiadau ar addasu.
  •   Mae data Ffynhonnell Agored ar gael i gyfran fawr o'r boblogaeth, gan wneud dadansoddi ac arloesi yn bosibl heb rwystrau ariannol.

Heriau

  • Mae'n anodd cael y data sy'n benodol i'r prosiect. Yn ogystal, mae posibilrwydd o wybodaeth ar goll a defnydd anghywir o'r data sydd ar gael.
  • Mae caffael data perchnogol yn cymryd amser, ymdrech ac mae'n gostus
  • Er y gallai fod yn haws cael data, gallai cost gwybodaeth a dadansoddi fod yn drech na'r fantais gychwynnol.
  • Mae datblygwyr eraill hefyd yn defnyddio'r un data i ddatblygu cymwysiadau.
  • Mae'r setiau data hyn yn agored iawn i doriadau diogelwch, preifatrwydd a chaniatâd.

15 Set Data Llawysgrifen ac OCR Orau ar gyfer Dysgu Peiriannau

Open-source ocr datasets

Mae llawer o setiau data ffynhonnell agored ar gael ar gyfer datblygu cymwysiadau adnabod testun. Mae rhai o'r 15 gorau

  1. Set Ddata ICDAR

    Mae gan y Gynhadledd Ryngwladol ar gyfer Dadansoddi a Chydnabyddiaeth Dogfennau storfa o 229 o hyfforddiant a 233 o ddelweddau profi, ynghyd ag anodiadau. Mae'n gweithredu fel meincnod ar gyfer gwerthuso canfod testun.

  2. IIIT 5K-set Data Word

    Wedi'i gymryd o chwiliad delwedd Google, mae IIIT 5K-word yn gasgliad o eiriau o hysbysfyrddau, hysbysfyrddau, platiau rhif, a phosteri. Mae'n cynnwys delweddau geiriau wedi'u tocio 5K sy'n golygu ei fod yn un o'r casgliadau mwyaf helaeth o setiau data adnabod testun sydd ar gael.

  3. Cronfa Ddata NIST

    Mae'r NIST neu'r Sefydliad Gwyddoniaeth Cenedlaethol yn cynnig casgliad rhad ac am ddim i'w ddefnyddio o dros 3600 o samplau llawysgrifen gyda mwy na 810,000 o ddelweddau cymeriad

  4. Cronfa Ddata MNIST

    Yn deillio o Gronfa Ddata Arbennig 1 a 3 NSIT, mae cronfa ddata MNIST yn gasgliad o 60,000 o rifau mewn llawysgrifen ar gyfer y set hyfforddi a 10,000 o enghreifftiau ar gyfer y set brawf. Mae'r gronfa ddata ffynhonnell agored hon yn helpu i hyfforddi modelau i adnabod patrymau wrth dreulio llai o amser ar ragbrosesu.

  5. Canfod Testun

    Yn gronfa ddata ffynhonnell agored, mae set ddata Text Detection yn cynnwys tua 500 o ddelweddau dan do ac awyr agored o arwyddion, platiau drws, platiau rhybudd, a mwy.

  6. OCR Stanford

    Wedi’i chyhoeddi gan Stanford, mae’r set ddata rhad ac am ddim hon i’w defnyddio yn gasgliad geiriau mewn llawysgrifen gan Grŵp Systemau Iaith Llafar MIT.

  7. DDI-100

    Fel arall a elwir yn Set Ddata Delweddau Dogfen wedi'i Hystumio, mae'r DDI-100 yn gasgliad o dros 6658 o dudalennau o ddogfennau gyda sawl patrwm geometrig ac afluniad wedi'u cymhwyso. Yn ogystal, mae gan y DDI-100 fwy na 99870 o ddelweddau, masgiau stamp, masgiau testun, a blychau terfyn.

  8. Testyn Ffordd-1K

    Un o'r setiau data mwyaf sy'n helpu i hyfforddi modelau i ganfod testun mewn fideos, mae'r RoadText-1K yn cynnwys 1000 o glipiau fideo ynghyd ag anodi testun blwch ffiniol a thrawsgrifiad o'r testun ym mhob ffrâm fideo.

  9. MSRA-TD500

    Yn cynnwys 300 o hyfforddiant a 200 o ddelweddau testun; mae'r MSRA-TD500 yn cynnwys nodau o ieithoedd Tsieinëeg a Saesneg ac mae wedi'i anodi ar lefel brawddeg.

  10. Set Ddata MJSynth

    Wedi'i ddarparu gan Brifysgol Rhydychen, mae gan y set ddata geiriau hon bron i 9 miliwn o ddelweddau a gynhyrchwyd yn synthetig sy'n cwmpasu mwy na 90 mil o eiriau Saesneg.

  11. Testun Golwg Stryd

    Wedi'i gasglu o ddelweddau Google Street View, mae gan y set ddata hon ddelweddau canfod testun yn bennaf o fyrddau ac arwyddion lefel stryd.

  12. Cronfa Ddata Dogfennau

    Mae'r Gronfa Ddata Dogfennau yn gasgliad o 941 o ddogfennau mewn llawysgrifen, gan gynnwys tablau, fformiwlâu, lluniadau, diagramau, rhestrau, a mwy, gan 189 o awduron.

  13. Mynegiadau Mathemateg

    Mae The Mathematics Expressions yn gronfa ddata sy'n cynnwys 101 o symbolau mathemategol a 10,000 o ymadroddion.

  14. Rhifau Tai Street View

    Wedi'i gynaeafu o Google Street View, mae'r Street View House Numbers hwn yn gronfa ddata sy'n cynnwys 73257 o ddigidau rhif tai stryd.

  15. Amgylchedd Naturiol OCR

    Mae OCR yr Amgylchedd Naturiol yn set ddata o bron i 660 o ddelweddau ledled y byd a 5238 o anodiadau testun.

Dyma rai o'r setiau data ffynhonnell agored gorau ar gyfer hyfforddi modelau ML ar gyfer cymwysiadau canfod testun. Gallai gymryd amser ac ymdrech i ddewis yr un sy'n cyd-fynd â'ch anghenion busnes a chymhwysiad. Fodd bynnag, rhaid i chi arbrofi gyda'r setiau data hyn cyn penderfynu ar yr un priodol.

Er mwyn eich helpu i symud ymlaen tuag at raglen synhwyro testun dibynadwy ac effeithlon mae Shaip - y darparwr datrysiadau technoleg uchel ei statws. Rydym yn trosoledd ein profiad technoleg i greu customizable, optimized, a setiau data hyfforddi OCR effeithlon ar gyfer prosiectau cleientiaid amrywiol. Er mwyn deall ein galluoedd yn llawn, cysylltwch â ni heddiw.

Cyfran Gymdeithasol