Astudiaeth Achos: AI Sgwrsio

Dros 3k awr o Ddata wedi'i Gasglu, ei Segmentu a'i Drawsysgrifio i adeiladu ASR mewn 8 iaith Indiaidd

Casgliad lleferydd
Nod y llywodraeth yw galluogi ei dinasyddion i gael mynediad hawdd at wasanaethau rhyngrwyd a digidol yn eu hiaith frodorol eu hunain trwy Brosiect Bhashini.

Mae BHASHINI, platfform cyfieithu iaith India a yrrir gan AI, yn rhan hanfodol o fenter India Ddigidol.

Wedi'i gynllunio i ddarparu offer Deallusrwydd Artiffisial (AI) a Phrosesu Iaith Naturiol (NLP) i MSMEs, busnesau newydd, ac arloeswyr annibynnol, mae platfform Bhashini yn adnodd cyhoeddus. Ei nod yw hyrwyddo cynhwysiant digidol trwy alluogi dinasyddion Indiaidd i ryngweithio â mentrau digidol y wlad yn eu hieithoedd brodorol.

Yn ogystal, ei nod yw ehangu'n sylweddol argaeledd cynnwys rhyngrwyd mewn ieithoedd Indiaidd. Mae hyn wedi'i dargedu'n arbennig at feysydd o ddiddordeb cyhoeddus megis llywodraethu a pholisi, gwyddoniaeth a thechnoleg, ac ati. O ganlyniad, bydd hyn yn cymell dinasyddion i ddefnyddio'r rhyngrwyd yn eu hiaith eu hunain, gan hyrwyddo eu cyfranogiad gweithredol.

Harneisio NLP i alluogi ecosystem amrywiol o gyfranwyr, endidau partner a dinasyddion at ddiben goresgyn rhwystrau iaith, a thrwy hynny sicrhau cynhwysiant digidol a grymuso

Datrysiad y Byd Go Iawn

Rhyddhau Pŵer Lleoleiddio â Data

Roedd India angen platfform a fyddai'n canolbwyntio ar greu setiau data amlieithog ac atebion technoleg iaith yn seiliedig ar AI er mwyn darparu gwasanaethau digidol mewn ieithoedd Indiaidd. I lansio'r fenter hon, bu Sefydliad Technoleg India, Madras (IIT Madras) mewn partneriaeth â Shaip i gasglu, segmentu a thrawsgrifio setiau data iaith Indiaidd i adeiladu modelau lleferydd amlieithog.

Heriau

Er mwyn cynorthwyo'r cleient gyda'i fap ffordd lleferydd Technoleg Lleferydd ar gyfer ieithoedd Indiaidd, roedd angen i'r tîm gaffael, segmentu a thrawsgrifio llawer iawn o ddata hyfforddi i adeiladu model AI. Gofynion hanfodol y cleient oedd:

Casglu data

  • Caffael 3000 awr o ddata hyfforddi mewn 8 iaith Indiaidd gyda 4 tafodiaith fesul iaith.
  • Ar gyfer pob iaith, bydd y cyflenwr yn casglu Extempore Speech a
    Araith Sgwrsio gan Grwpiau Oedran 18-60 oed
  • Sicrhau cymysgedd amrywiol o siaradwyr yn ôl oedran, rhyw, addysg a thafodieithoedd
  • Sicrhau cymysgedd amrywiol o amgylcheddau cofnodi yn unol â'r Manylebau.
  • Rhaid i bob recordiad sain fod o leiaf 16kHz ond yn ddelfrydol yn 44kHz

Segmentu Data

  • Creu segmentau lleferydd o 15 eiliad a stampio'r sain i'r milieiliadau ar gyfer pob siaradwr penodol, math o sain (llefariad, clebran, cerddoriaeth, sŵn), troeon, ymadroddion ac ymadroddion mewn sgwrs
  • Creu pob segment ar gyfer ei signal sain wedi'i dargedu gyda phadin 200-400 milieiliad ar ddechrau a diwedd.
  • Ar gyfer pob segment, rhaid llenwi'r gwrthrychau canlynol hy, Amser Cychwyn, Amser Gorffen, ID Segment, Lefel Cryfder, Math o Sain, Cod Iaith, ID Siaradwr, ac ati.

Trawsgrifio Data

  • Dilynwch ganllawiau trawsgrifio manylion ynghylch Cymeriadau a Symbolau Arbennig, Sillafu a Gramadeg, Priflythrennu, Byrfoddau, Cyfyngiadau, Llythyrau Llafar Unigol, Rhifau, Atalnodi, Acronymau, Anghyfleustra, Lleferydd, Lleferydd Annealladwy, Ieithoedd Di-Targed, Heb Leferydd ac ati.

Gwiriad Ansawdd ac Adborth

  • Pob recordiad i gael ei asesu a'i ddilysu o ansawdd, dim ond lleferydd wedi'i ddilysu i'w gyflwyno

Ateb

Gyda'n dealltwriaeth ddofn o AI sgyrsiol, fe wnaethom helpu'r cleient i gasglu, segmentu a thrawsgrifio'r data gyda thîm o gasglwyr, ieithyddion ac anodyddion arbenigol i adeiladu corpws mawr o set ddata sain mewn 8 iaith Indiaidd

Roedd cwmpas gwaith Shaip yn cynnwys ond nid yn gyfyngedig i gaffael llawer iawn o ddata hyfforddiant sain, segmentu'r recordiadau sain yn lluosog, trawsgrifio'r data a chyflwyno ffeiliau JSON cyfatebol yn cynnwys y metadata [SpeakerID, Oedran, Rhyw, Iaith, Tafodiaith,
Mamiaith, Cymhwyster, Galwedigaeth, Parth, Fformat Ffeil, Amlder, Sianel, Math o Sain, Nifer y siaradwyr, Nifer yr Ieithoedd Tramor, Y Gosodiad a Ddefnyddir, Band Cul neu Sain Band Eang, ac ati]. 

Casglodd Shaip 3000 awr o ddata sain ar raddfa wrth gynnal y lefelau ansawdd dymunol sydd eu hangen i hyfforddi technoleg lleferydd ar gyfer prosiectau cymhleth. Cymerwyd Ffurflen Caniatâd Penodol gan bob un o'r cyfranogwyr.

1. Casglu data

2. Segmentu Data

  • Cafodd y data sain a gasglwyd ei rannu ymhellach yn segmentau lleferydd o 15 eiliad yr un a'i stampio i'r milieiliadau ar gyfer pob siaradwr penodol, math o sain, troadau, ymadroddion ac ymadroddion mewn sgwrs
  • Wedi creu pob segment ar gyfer ei signal sain wedi'i dargedu gyda phadin 200-400 milieiliad ar ddechrau a diwedd signal sain.
  • Ar gyfer pob segment, roedd y gwrthrychau canlynol yn bresennol ac wedi'u llenwi h.y., Amser Dechrau, Amser Gorffen, ID Segment, Lefel Cryfder (Cryf, Normal, Tawel), Math Sain Cynradd (Araith, Babble, Cerddoriaeth, Sŵn, Gorgyffwrdd), Siaradwr Cod Iaith ID, Trawsgrifiad ac ati.

3. Gwirio Ansawdd ac Adborth

  • Aseswyd ansawdd yr holl recordiadau a dim ond recordiadau lleferydd dilys gyda WER o 90% a TER o 90% a ddarparwyd.
  • Rhestr Wirio Ansawdd i'w dilyn:
       » Uchafswm 15 eiliad o hyd segment
       » Trawsgrifio o barthau penodol, sef: Tywydd, gwahanol fathau o newyddion, iechyd, amaethyddiaeth, addysg, swyddi neu gyllid
       » Sŵn cefndir isel
       » Dim clip sain i ffwrdd – Dim afluniad
       » Segmentu sain cywir ar gyfer trawsgrifio

4. Trawsgrifio Data
Cafodd yr holl eiriau llafar, gan gynnwys petruso, geiriau llenwi, cychwyniadau ffug, a thics geiriol eraill, eu dal yn gywir yn y trawsgrifiad. Fe wnaethom hefyd ddilyn canllawiau trawsgrifio manylion ynghylch prif lythrennau a llythrennau bach, sillafu, priflythrennau, byrfoddau, cyfyngiadau, rhifau,
atalnodi, Acronymau, Lleferydd Anghydffurfiol, synau di-leferydd ac ati. Ar ben hynny mae'r Llif Gwaith a ddilynwyd ar gyfer Casglu a Thrawsgrifio fel a ganlyn:

Canlyniad

Bydd y data sain o ansawdd uchel gan ieithyddion arbenigol yn galluogi Sefydliad Technoleg India - Madras, i hyfforddi ac adeiladu modelau Cydnabod Lleferydd amlieithog yn gywir mewn 8 iaith Indiaidd gyda thafodieithoedd gwahanol yn yr amser penodedig. Gellir defnyddio’r modelau adnabod llais i:

  • Goresgyn rhwystr iaith ar gyfer cynhwysiant digidol trwy gysylltu dinasyddion â'r mentrau yn eu mamiaith eu hunain.
  • Yn hyrwyddo Llywodraethu Digidol
  • Catalydd i ffurfio ecosystem ar gyfer gwasanaethau a chynnyrch mewn ieithoedd Indiaidd
  • Cynnwys digidol mwy lleol ym meysydd budd y cyhoedd, yn enwedig llywodraethu a pholisi
Aur-5-seren

Gwnaeth arbenigedd Shaip mewn gofod AI sgwrsio argraff arnom. Eu gallu cyffredinol i gyflawni prosiectau o gyrchu, segmentu, trawsgrifio a chyflwyno'r data hyfforddi gofynnol gan ieithyddion arbenigol mewn 8 iaith o fewn llinellau amser a chanllawiau llym; tra'n dal i gynnal safon dderbyniol o ansawdd.”

Cyflymwch eich AI Sgwrsio
datblygu cymwysiadau 100%

Cleientiaid dan Sylw

Grymuso timau i adeiladu cynhyrchion AI sy'n arwain y byd.