AI sgwrsio: Adnabod Lleferydd Awtomatig

Dros 8k o Oriau Sain wedi'u Casglu, 800 awr wedi'u Trawsgrifio ar gyfer Technoleg Llais Amlieithog

Sgwrsio ai

Cyflwyniad

Roedd India angen llwyfan sy'n canolbwyntio ar greu setiau data amlieithog ac atebion technoleg iaith seiliedig ar AI er mwyn darparu gwasanaethau digidol mewn ieithoedd Indiaidd. I lansio'r fenter hon, bu'r Cleient mewn partneriaeth â Shaip i gasglu, a thrawsgrifio iaith Indiaidd i adeiladu modelau lleferydd amlieithog.

Cyfrol

Oriau Data a Gasglwyd
10
Nifer y Tudalennau a Anodir
10 +
Hyd y Prosiect
< 1 mis

Heriau

Er mwyn cynorthwyo'r cleient gyda'i fap ffordd lleferydd Technoleg Lleferydd ar gyfer ieithoedd Indiaidd, roedd angen i'r tîm gaffael, segmentu a thrawsgrifio llawer iawn o ddata hyfforddi i adeiladu model AI. Gofynion hanfodol y cleient oedd:

Casglu data

  • Caffael 8000 awr o ddata hyfforddi o leoliadau anghysbell yn India
  • Y cyflenwr i gasglu lleferydd digymell gan Grwpiau Oedran 20-70 oed
  • Sicrhau cymysgedd amrywiol o siaradwyr yn ôl oedran, rhyw, addysg a thafodieithoedd
  • Rhaid i bob recordiad sain fod o leiaf 16kHz gyda 16 did/sampl.
Casglu data

Trawsgrifio Data

Dilyn canllawiau trawsgrifio manylion o amgylch Cymeriadau a Symbolau Arbennig, Sillafu a Gramadeg, Priflythrennu, Byrfoddau, Cyfyngiadau, Llythyrau Llafar Unigol, Rhifau, Atalnodi, Acronymau a Cychwynnol, Lleferydd Anghydffurfiol, Lleferydd Annealladwy, Ieithoedd Di-Darged, Heb Leferydd

Trawsgrifio data

Gwiriad Ansawdd ac Adborth

Pob recordiad i gael ei asesu a'i ddilysu o ansawdd, dim ond recordiadau lleferydd dilys i'w cyflwyno

Ateb

Gyda'n dealltwriaeth ddofn o AI sgyrsiol, fe wnaethom helpu'r cleient i gasglu, trawsgrifio'r data sain gyda thîm o gasglwyr, ieithyddion ac anodyddion arbenigol i adeiladu corpws mawr o ddata sain o rannau anghysbell o India.

Roedd cwmpas gwaith Shaip yn cynnwys ond nid yn gyfyngedig i gaffael llawer iawn o ddata hyfforddiant sain, trawsgrifio'r data a chyflwyno ffeiliau JSON cyfatebol yn cynnwys y metadata [ar gyfer siaradwyr a thrawsgrifwyr. Ar gyfer pob siaradwr, mae'r metadata'n cynnwys ID Siaradwr dienw, manylion dyfais, gwybodaeth ddemograffig fel rhyw, oedran ac addysg, ynghyd â'u cod pin, statws economaidd-gymdeithasol, yr ieithoedd a siaredir, a chofnod o hyd arhosiad eu bywyd. Ar gyfer pob trawsgrifiwr, mae'r data'n ymgorffori ID Trawsgrifiwr dienw, manylion demograffig tebyg i'r siaradwyr, hyd eu profiad trawsgrifio, a dadansoddiad trylwyr o'r ieithoedd y gallant eu darllen, eu hysgrifennu a'u siarad.

Shaip wedi ei gasglu 8000 oriau o ddata sain / Lleferydd digymell ar raddfa a thrawsgrifio 800 awr tra'n cynnal y lefelau ansawdd dymunol sy'n ofynnol i hyfforddi technoleg lleferydd ar gyfer prosiectau cymhleth. Cymerwyd Ffurflen Caniatâd Penodol gan bob un o'r cyfranogwyr. Roedd yr / araith ddigymell a gasglwyd yn seiliedig ar ddelweddau a ddarparwyd gan y Brifysgol. O 3500 lluniau 1000 yn generig a 2500 yn ymwneud â diwylliant ardal-benodol, gwyliau, ac ati. Mae delweddau yn darlunio parthau amrywiol fel gorsafoedd trenau, marchnadoedd, tywydd, a mwy.

Casglu data

wladwriaethArdaloeddSain OriauTrawsgrifiad
(Oriau)
BiharSaran, Dwyrain Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
Gorllewin BengalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, Gogledd 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaGogledd + De Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Cyfanswm8000800

Canllawiau Cyffredinol

fformat

    • Sain ar 16 kHz, 16 did/sampl.
    • Sianel sengl.
    • Sain amrwd heb drawsgodio.

arddull

    • Araith ddigymell.
    • Brawddegau yn seiliedig ar ddelweddau a ddarperir gan y Brifysgol. O'r 3500 o ddelweddau, mae 1000 yn generig a 2500 yn ymwneud â diwylliant ardal-benodol, gwyliau, ac ati. Mae delweddau'n darlunio parthau amrywiol fel gorsafoedd trenau, marchnadoedd, tywydd, a mwy.

Cefndir Cofnodi

    • Wedi'i recordio mewn amgylchedd tawel, heb adlais.
    • Dim aflonyddwch ffôn clyfar (dirgryniad neu hysbysiadau) wrth recordio.
    • Dim afluniadau fel clipio neu effeithiau maes pell.
    • Mae dirgryniadau ffôn yn annerbyniol; mae dirgryniadau allanol yn oddefadwy os yw sain yn glir.

Manyleb y Llefarydd

    • Ystod oedran o 20-70 oed gyda dosbarthiad rhyw cytbwys fesul ardal.
    • Lleiafswm o 400 o siaradwyr brodorol ym mhob ardal.
    • Dylai siaradwyr ddefnyddio iaith/tafodiaith eu cartref.
    • Ffurflenni caniatâd yn orfodol i bob cyfranogwr.


Gwirio Ansawdd a Sicrwydd Ansawdd Critigol

Mae'r broses SA yn blaenoriaethu sicrwydd ansawdd ar gyfer recordiadau sain a thrawsgrifiadau. Mae safonau sain yn canolbwyntio ar union dawelwch, hyd segment, eglurder un siaradwr, a metadata manwl gan gynnwys oedran a statws economaidd-gymdeithasol. Mae meini prawf trawsgrifio yn pwysleisio cywirdeb tag, cywirdeb geiriau, a manylion segmentau cywir. Mae'r meincnod derbyn yn nodi, os bydd mwy nag 20% ​​o swp sain yn methu'r safonau hyn, ei fod yn cael ei wrthod. Ar gyfer llai nag 20% ​​o anghysondebau, mae angen recordiadau amnewid gyda phroffiliau tebyg.

Trawsgrifio Data

Mae canllawiau trawsgrifio yn pwysleisio cywirdeb a thrawsgrifio gair am air dim ond pan fydd geiriau’n glir ac yn ddealladwy; geiriau aneglur yn cael eu marcio fel [annealladwy] neu [anghlywadwy] yn seiliedig ar y mater. Mae ffiniau brawddegau mewn sain hir wedi'u marcio â , ac ni chaniateir aralleirio na chywiro gwallau gramadegol. Mae trawsgrifio gair am air yn cynnwys gwallau, bratiaith, ac ailadroddiadau ond yn hepgor dechreuadau ffug, synau llenwi, a thafodau. Mae synau cefndir a blaendir yn cael eu trawsgrifio â thagiau disgrifiadol, tra bod enwau, teitlau a rhifau priodol yn dilyn rheolau trawsgrifio penodol. Defnyddir labeli siaradwr ar gyfer pob brawddeg, a nodir brawddegau anghyflawn gyda nhw.

Llif Gwaith Prosiect

Mae'r llif gwaith yn disgrifio'r broses trawsgrifio sain. Mae'n dechrau gydag ymuno a hyfforddi cyfranogwyr. Maen nhw'n recordio sain gan ddefnyddio ap, sy'n cael ei uwchlwytho i blatfform SA. Mae'r sain hwn yn destun gwiriadau ansawdd a segmentu awtomatig. Yna mae'r tîm technoleg yn paratoi segmentau i'w trawsgrifio. Ar ôl trawsgrifio â llaw, mae cam sicrhau ansawdd. Mae trawsgrifiadau'n cael eu dosbarthu i'r cleient, ac os caiff ei dderbyn, ystyrir bod y dosbarthiad wedi'i gwblhau. Os na, gwneir diwygiadau yn seiliedig ar adborth cleientiaid.

Canlyniad

Bydd y data sain o ansawdd uchel gan ieithyddion arbenigol yn galluogi ein cleient i hyfforddi ac adeiladu modelau Adnabod Lleferydd amlieithog yn gywir mewn amrywiol ieithoedd Indiaidd gyda thafodieithoedd gwahanol yn yr amser penodedig. Gellir defnyddio’r modelau adnabod llais i:

  • Goresgyn rhwystr iaith ar gyfer cynhwysiant digidol trwy gysylltu dinasyddion â'r mentrau yn eu mamiaith eu hunain.
  • Yn hyrwyddo Llywodraethu Digidol
  • Catalydd i ffurfio ecosystem ar gyfer gwasanaethau a chynnyrch mewn ieithoedd Indiaidd
  • Cynnwys digidol mwy lleol ym meysydd budd y cyhoedd, yn enwedig llywodraethu a pholisi

Rydym wedi ein syfrdanu gan arbenigedd Shaip yn y maes AI sgyrsiol. Roedd y dasg o drin 8000 awr o ddata sain ynghyd ag 800 awr o drawsgrifio ar draws 80 o ardaloedd amrywiol yn aruthrol, a dweud y lleiaf. Dealltwriaeth ddofn Shaip o fanylion a naws cywrain y maes hwn a'i gwnaeth yn bosibl i gyflawni prosiect mor heriol yn llwyddiannus. Mae eu gallu i reoli a llywio'n ddi-dor trwy gymhlethdodau'r swm enfawr hwn o ddata tra'n sicrhau ansawdd o'r radd flaenaf yn wirioneddol glodwiw.

Aur-5-seren

Cyflymwch eich AI Sgwrsio
datblygu cymwysiadau 100%