Mewn gwlad mor amrywiol yn ddiwylliannol ac mor gyfoethog yn ieithyddol ag India, mae adeiladu AI cynhwysol yn dechrau gyda chasglu setiau data cynrychioliadol o ansawdd uchel. Dyna'r weledigaeth y tu ôl Prosiect Vaani—menter ffynhonnell agored ar raddfa fawr a arweinir gan CELFYDDYD, IISc Bengaluru, a google, gan anelu at roi llais i bob iaith a thafodiaith Indiaidd.
Y nod uchelgeisiol? I gasglu 150,000+ awr o siarad ac 15,000+ awr o drawsgrifiadau o 1 miliwn o bobl ar draws 773 ardal o India.
Fel un o'r gwerthwyr allweddol ar gyfer y genhadaeth genedlaethol hon, Shaip chwarae rhan ganolog wrth guradu data lleferydd digymell, trawsgrifio, a chasglu metadata - gan osod y sylfaen ar gyfer technolegau llais teg sy'n wirioneddol gynrychioli'r India go iawn.
Y Weledigaeth y tu ôl i Brosiect Vaani
Mae Prosiect Vaani wedi'i gynllunio i bontio'r bwlch cynhwysiant AI trwy greu'r set ddata amlfodd, amlieithog, ffynhonnell agored fwyaf yn India. Mae'r data hwn yn sylfaenol ar gyfer datblygu systemau adnabod lleferydd, cyfieithu, a chynhyrchiol AI mewn ieithoedd brodorol Indiaidd - llawer ohonynt heb gynrychiolaeth ddigonol mewn ecosystemau technoleg byd-eang.
Y weledigaeth hirdymor yw grymuso cymwysiadau sy’n cael effaith yn:
- Gofal Iechyd – Telefeddygaeth ar sail llais
- Addysg - Llwyfannau dysgu gwerinol
- Llywodraethu – Rhyngwynebau sgwrsio ar gyfer gwasanaethau dinasyddion
- Hygyrchedd - Offer llais ar gyfer defnyddwyr â gallu gwahanol
- Ymateb trychineb – Cyfathrebu amser real mewn tafodieithoedd lleol
Sut Helpodd Shaip i Adeiladu Set Data Lleferydd Ffynhonnell Agored Fwyaf India ar gyfer Prosiect Vaani
Ymddiriedwyd i Shaip y casgliad o 8,000 awr o siarad yn ddigymell ac 800 awr o drawsgrifiadau wedi'u dilysu â llaw. Roedd ein cyfrifoldeb yn ymestyn ar fwrdd siaradwyr, cipio sain, tagio metadata, cydlynu trawsgrifio, a rheoli ansawdd.
oriau 8,000 o ddata sain digymell
Recordiadau o 400+ o siaradwyr brodorol fesul ardal, cynrychioli grwpiau oedran, rhywiau a thafodieithoedd amrywiol
80 o ardaloedd, cynnwys
Anogaeth yn seiliedig ar ddelwedd i sicrhau lleferydd naturiol, cyd-destunol
Dyma beth wnaeth ein hymagwedd yn unigryw:
Amrywiaeth ar Lefel Ardal
Fe wnaethon ni ddod o hyd i recordiadau o 80 o ardaloedd ar draws taleithiau fel Bihar, Uttar Pradesh, Karnataka, West Bengal, a Maharashtra. Cyfrannodd pob ardal 100 awr o ddata sain, gan sicrhau cydbwysedd rhanbarthol. Fe wnaethom ymgysylltu â siaradwyr brodorol, gan sicrhau cynrychiolaeth o acenion rhanbarthol a thafodieithoedd a anwybyddir yn aml mewn setiau data AI prif ffrwd.
Cynrychiolaeth Ieithyddol a Demograffig
Fe wnaethon ni ddod o hyd i recordiadau o 80 o ardaloedd ar draws taleithiau fel Bihar, Uttar Pradesh, Karnataka, West Bengal, a Maharashtra. Cyfrannodd pob ardal 100 awr o ddata sain, gan sicrhau cydbwysedd rhanbarthol. Fe wnaethom ymgysylltu â siaradwyr brodorol, gan sicrhau cynrychiolaeth o acenion rhanbarthol a thafodieithoedd a anwybyddir yn aml mewn setiau data AI prif ffrwd.
Araith Wedi'i Ysgogi gan Ddelwedd
Er mwyn ysgogi geirfa ddigymell a naturiol, dangoswyd 45-90 o ddelweddau i’r cyfranogwyr y sesiwn a gofynnwyd iddynt eu disgrifio. Anogwyd y cyfranogwyr gan ddefnyddio delweddau amrywiol - yn amrywio o symbolau diwylliannol i wrthrychau bob dydd - i ennyn ymatebion naturiol, digymell yn eu hiaith frodorol. Sicrhaodd hyn fod recordiadau'n adlewyrchu lleferydd cyd-destunol yn y byd go iawn - sy'n hanfodol ar gyfer hyfforddi systemau NLP uwch.
Safonau Trawsgrifio o Ansawdd Uchel
Dim ond 10% o ddata lleferydd a drawsgrifiwyd - cyfanswm o 800 awr. Perfformiwyd trawsgrifiadau gan ieithyddion lleol o fewn radiws 20-50 km i'r siaradwr, gan sicrhau ei fod yn gyfarwydd â thafodieithoedd a nawsau. Sicrhaodd gwiriad ail haen gyfradd gwallau o 5% o eiriau (WER).
Sicrwydd Ansawdd Llym
Roedd yn rhaid i ddata sain fodloni bar uchel: dim sŵn cefndir, adleisiau, dirgryniadau ffôn, nac ystumiadau. Roedd sain yn cael ei recordio mewn amgylcheddau tawel, heb adlais. Cafodd ffeiliau eu hadolygu'n drylwyr i fodloni canllawiau ar gyfer eglurder lleferydd, lefelau sŵn, cywirdeb metadata, a gwirio siaradwr. Roedd yn rhaid i dagio metadata fod yn gywir ar draws pob ffeil, a gwiriwyd yr holl recordiadau am aliniad siaradwr a lleoliad.
Heriau a Datryswyd gennym
- Logisteg o bell – Rheoli timau ar draws 80 o ardaloedd
- Amrywiaeth siaradwyr – Ar fwrdd 32,000+ o siaradwyr wedi'u dilysu mewn lleoliadau anghysbell
- Sensitifrwydd diwylliannol – Parchu arferion a thafodieithoedd lleol
- Uniondeb data - Cwrdd â safonau ansawdd a chydymffurfiaeth
- Rheoli Ansawdd – ar draws cyd-destunau ieithyddol a diwylliannol lluosog
Deilliodd ein llwyddiant i gynllunio manwl, dilysu wedi'i yrru gan dechnoleg, a phartneriaethau gyda thimau lleol a oedd yn deall naws diwylliannol pob rhanbarth.
Effaith a Cheisiadau
Mae cyfraniad Shaip nid yn unig wedi cyflymu cynnydd Project Vaani ond hefyd wedi gosod y sylfaen ar gyfer AI cynhwysol yn India. Mae’r set ddata lleferydd wedi’i churadu eisoes yn cael ei defnyddio i adeiladu a mireinio modelau AI ar gyfer:
- Cynorthwywyr llais gwerinol
- Peiriannau cyfieithu rhanbarthol
- Offer cyfathrebu hygyrch ar gyfer y rhai â nam ar eu golwg
- Llwyfannau edtech a yrrir gan AI ar gyfer myfyrwyr gwledig
- Telefeddygaeth wledig
- Gwasanaethau dinasyddion sy'n seiliedig ar lais
- Cyfieithu a thrawsgrifio amser real
Casgliad
Mae Project Vaani yn gam beiddgar tuag at AI cynhwysol, hygyrch - ac mae'n anrhydedd i Shaip chwarae rhan sylfaenol. Mae gwaith Shaip ar Brosiect Vaani yn ailddatgan ein hymrwymiad i adeiladu systemau AI moesegol, cynhwysol sydd wedi’u gwreiddio mewn amrywiaeth a chynrychiolaeth. Gyda dros 8,000 o oriau o lefaru wedi'u casglu ac 800 o oriau wedi'u trawsgrifio, rydym yn falch o fod wedi chwarae rhan yn un o brosiectau cynhwysiant digidol mwyaf gweledigaethol India.
Wrth i Project Vaani barhau tuag at ei nod mwy o 150,000+ o oriau o ddata, rydym yn barod i gefnogi ffin nesaf arloesedd AI sy'n siarad â - ac ar gyfer - pob Indiaidd.
Eisiau partneru â ni i adeiladu AI sy'n deall y byd go iawn? www.shaip.com