Prosiect Vaani

Prosiect Vaani: Rôl Shaip wrth Siapio Deallusrwydd Artiffisial Amlieithog ar gyfer India

Mewn gwlad mor amrywiol yn ddiwylliannol ac mor gyfoethog yn ieithyddol ag India, mae adeiladu AI cynhwysol yn dechrau gyda chasglu setiau data cynrychioliadol o ansawdd uchel. Dyna'r weledigaeth y tu ôl Prosiect Vaani—menter ffynhonnell agored ar raddfa fawr a arweinir gan CELFYDDYD, IISc Bengaluru, a google, gan anelu at roi llais i bob iaith a thafodiaith Indiaidd.

Y nod uchelgeisiol? I gasglu 150,000+ awr o siarad ac 15,000+ awr o drawsgrifiadau o 1 miliwn o bobl ar draws 773 ardal o India.

Fel un o'r gwerthwyr allweddol ar gyfer y genhadaeth genedlaethol hon, Shaip chwarae rhan ganolog wrth guradu data lleferydd digymell, trawsgrifio, a chasglu metadata - gan osod y sylfaen ar gyfer technolegau llais teg sy'n wirioneddol gynrychioli'r India go iawn.

Y Weledigaeth y tu ôl i Brosiect Vaani

Mae Prosiect Vaani wedi'i gynllunio i bontio'r bwlch cynhwysiant AI trwy greu'r set ddata amlfodd, amlieithog, ffynhonnell agored fwyaf yn India. Mae'r data hwn yn sylfaenol ar gyfer datblygu systemau adnabod lleferydd, cyfieithu, a chynhyrchiol AI mewn ieithoedd brodorol Indiaidd - llawer ohonynt heb gynrychiolaeth ddigonol mewn ecosystemau technoleg byd-eang.

Y weledigaeth hirdymor yw grymuso cymwysiadau sy’n cael effaith yn:

Sut Helpodd Shaip i Adeiladu Set Data Lleferydd Ffynhonnell Agored Fwyaf India ar gyfer Prosiect Vaani

Ymddiriedwyd i Shaip y casgliad o 8,000 awr o siarad yn ddigymell ac 800 awr o drawsgrifiadau wedi'u dilysu â llaw. Roedd ein cyfrifoldeb yn ymestyn ar fwrdd siaradwyr, cipio sain, tagio metadata, cydlynu trawsgrifio, a rheoli ansawdd.

oriau 8,000 o ddata sain digymell

oriau 800 trawsgrifiadau llaw o ansawdd uchel

Recordiadau o 400+ o siaradwyr brodorol fesul ardal, cynrychioli grwpiau oedran, rhywiau a thafodieithoedd amrywiol

80 o ardaloedd, cynnwys

Anogaeth yn seiliedig ar ddelwedd i sicrhau lleferydd naturiol, cyd-destunol

Dyma beth wnaeth ein hymagwedd yn unigryw:

Amrywiaeth ar lefel ardal

Amrywiaeth ar Lefel Ardal

Fe wnaethon ni ddod o hyd i recordiadau o 80 o ardaloedd ar draws taleithiau fel Bihar, Uttar Pradesh, Karnataka, West Bengal, a Maharashtra. Cyfrannodd pob ardal 100 awr o ddata sain, gan sicrhau cydbwysedd rhanbarthol. Fe wnaethom ymgysylltu â siaradwyr brodorol, gan sicrhau cynrychiolaeth o acenion rhanbarthol a thafodieithoedd a anwybyddir yn aml mewn setiau data AI prif ffrwd.

Cynrychiolaeth ieithyddol a demograffig

Cynrychiolaeth Ieithyddol a Demograffig

Fe wnaethon ni ddod o hyd i recordiadau o 80 o ardaloedd ar draws taleithiau fel Bihar, Uttar Pradesh, Karnataka, West Bengal, a Maharashtra. Cyfrannodd pob ardal 100 awr o ddata sain, gan sicrhau cydbwysedd rhanbarthol. Fe wnaethom ymgysylltu â siaradwyr brodorol, gan sicrhau cynrychiolaeth o acenion rhanbarthol a thafodieithoedd a anwybyddir yn aml mewn setiau data AI prif ffrwd.

Araith Wedi'i Ysgogi gan Ddelwedd

Er mwyn ysgogi geirfa ddigymell a naturiol, dangoswyd 45-90 o ddelweddau i’r cyfranogwyr y sesiwn a gofynnwyd iddynt eu disgrifio. Anogwyd y cyfranogwyr gan ddefnyddio delweddau amrywiol - yn amrywio o symbolau diwylliannol i wrthrychau bob dydd - i ennyn ymatebion naturiol, digymell yn eu hiaith frodorol. Sicrhaodd hyn fod recordiadau'n adlewyrchu lleferydd cyd-destunol yn y byd go iawn - sy'n hanfodol ar gyfer hyfforddi systemau NLP uwch.

Safonau trawsgrifio o ansawdd uchel

Safonau Trawsgrifio o Ansawdd Uchel

Dim ond 10% o ddata lleferydd a drawsgrifiwyd - cyfanswm o 800 awr. Perfformiwyd trawsgrifiadau gan ieithyddion lleol o fewn radiws 20-50 km i'r siaradwr, gan sicrhau ei fod yn gyfarwydd â thafodieithoedd a nawsau. Sicrhaodd gwiriad ail haen gyfradd gwallau o 5% o eiriau (WER).

Sicrwydd Ansawdd Llym

Roedd yn rhaid i ddata sain fodloni bar uchel: dim sŵn cefndir, adleisiau, dirgryniadau ffôn, nac ystumiadau. Roedd sain yn cael ei recordio mewn amgylcheddau tawel, heb adlais. Cafodd ffeiliau eu hadolygu'n drylwyr i fodloni canllawiau ar gyfer eglurder lleferydd, lefelau sŵn, cywirdeb metadata, a gwirio siaradwr. Roedd yn rhaid i dagio metadata fod yn gywir ar draws pob ffeil, a gwiriwyd yr holl recordiadau am aliniad siaradwr a lleoliad.

Heriau a Datryswyd gennym

Deilliodd ein llwyddiant i gynllunio manwl, dilysu wedi'i yrru gan dechnoleg, a phartneriaethau gyda thimau lleol a oedd yn deall naws diwylliannol pob rhanbarth.

Effaith a Cheisiadau

Mae cyfraniad Shaip nid yn unig wedi cyflymu cynnydd Project Vaani ond hefyd wedi gosod y sylfaen ar gyfer AI cynhwysol yn India. Mae’r set ddata lleferydd wedi’i churadu eisoes yn cael ei defnyddio i adeiladu a mireinio modelau AI ar gyfer:

  • Cynorthwywyr llais gwerinol
  • Peiriannau cyfieithu rhanbarthol
  • Offer cyfathrebu hygyrch ar gyfer y rhai â nam ar eu golwg
  • Llwyfannau edtech a yrrir gan AI ar gyfer myfyrwyr gwledig
  • Telefeddygaeth wledig
  • Gwasanaethau dinasyddion sy'n seiliedig ar lais
  • Cyfieithu a thrawsgrifio amser real

Casgliad

Mae Project Vaani yn gam beiddgar tuag at AI cynhwysol, hygyrch - ac mae'n anrhydedd i Shaip chwarae rhan sylfaenol. Mae gwaith Shaip ar Brosiect Vaani yn ailddatgan ein hymrwymiad i adeiladu systemau AI moesegol, cynhwysol sydd wedi’u gwreiddio mewn amrywiaeth a chynrychiolaeth. Gyda dros 8,000 o oriau o lefaru wedi'u casglu ac 800 o oriau wedi'u trawsgrifio, rydym yn falch o fod wedi chwarae rhan yn un o brosiectau cynhwysiant digidol mwyaf gweledigaethol India.

Wrth i Project Vaani barhau tuag at ei nod mwy o 150,000+ o oriau o ddata, rydym yn barod i gefnogi ffin nesaf arloesedd AI sy'n siarad â - ac ar gyfer - pob Indiaidd.

Eisiau partneru â ni i adeiladu AI sy'n deall y byd go iawn? www.shaip.com

Mwynhaodd yr erthygl hon? Dilynwch Shaip ar LinkedIn am fwy o ddiweddariadau.

Cyfran Gymdeithasol