Astudiaeth Achos: AI Sgwrsio

Dros 3k awr o Ddata wedi'i Gasglu, ei Segmentu a'i Drawsysgrifio i adeiladu ASR mewn 8 iaith Indiaidd

Casgliad lleferydd
Nod y llywodraeth yw galluogi ei dinasyddion i gael mynediad hawdd at wasanaethau rhyngrwyd a digidol yn eu hiaith frodorol eu hunain trwy Brosiect Bhashini.

Mae BHASHINI, platfform cyfieithu iaith India a yrrir gan AI, yn rhan hanfodol o fenter India Ddigidol.

Wedi'i gynllunio i ddarparu offer Deallusrwydd Artiffisial (AI) a Phrosesu Iaith Naturiol (NLP) i MSMEs, busnesau newydd, ac arloeswyr annibynnol, mae platfform Bhashini yn adnodd cyhoeddus. Ei nod yw hyrwyddo cynhwysiant digidol trwy alluogi dinasyddion Indiaidd i ryngweithio â mentrau digidol y wlad yn eu hieithoedd brodorol.

Yn ogystal, ei nod yw ehangu'n sylweddol argaeledd cynnwys rhyngrwyd mewn ieithoedd Indiaidd. Mae hyn wedi'i dargedu'n arbennig at feysydd o ddiddordeb cyhoeddus megis llywodraethu a pholisi, gwyddoniaeth a thechnoleg, ac ati. O ganlyniad, bydd hyn yn cymell dinasyddion i ddefnyddio'r rhyngrwyd yn eu hiaith eu hunain, gan hyrwyddo eu cyfranogiad gweithredol.

Harneisio NLP i alluogi ecosystem amrywiol o gyfranwyr, endidau partner a dinasyddion at ddiben goresgyn rhwystrau iaith, a thrwy hynny sicrhau cynhwysiant digidol a grymuso

Datrysiad y Byd Go Iawn

Rhyddhau Pŵer Lleoleiddio â Data

Roedd India angen platfform a fyddai'n canolbwyntio ar greu setiau data amlieithog ac atebion technoleg iaith yn seiliedig ar AI er mwyn darparu gwasanaethau digidol mewn ieithoedd Indiaidd. I lansio'r fenter hon, bu Sefydliad Technoleg India, Madras (IIT Madras) mewn partneriaeth â Shaip i gasglu, segmentu a thrawsgrifio setiau data iaith Indiaidd i adeiladu modelau lleferydd amlieithog.

Heriau

Er mwyn cynorthwyo'r cleient gyda'i fap ffordd lleferydd Technoleg Lleferydd ar gyfer ieithoedd Indiaidd, roedd angen i'r tîm gaffael, segmentu a thrawsgrifio llawer iawn o ddata hyfforddi i adeiladu model AI. Gofynion hanfodol y cleient oedd:

Casglu data

  • Caffael 3000 awr o ddata hyfforddi mewn 8 iaith Indiaidd gyda 4 tafodiaith fesul iaith.
  • Ar gyfer pob iaith, bydd y cyflenwr yn casglu Extempore Speech a
    Araith Sgwrsio gan Grwpiau Oedran 18-60 oed
  • Sicrhau cymysgedd amrywiol o siaradwyr yn ôl oedran, rhyw, addysg a thafodieithoedd
  • Sicrhau cymysgedd amrywiol o amgylcheddau cofnodi yn unol â'r Manylebau.
  • Rhaid i bob recordiad sain fod o leiaf 16kHz ond yn ddelfrydol yn 44kHz

Segmentu Data

  • Creu segmentau lleferydd o 15 eiliad a stampio'r sain i'r milieiliadau ar gyfer pob siaradwr penodol, math o sain (llefariad, clebran, cerddoriaeth, sŵn), troeon, ymadroddion ac ymadroddion mewn sgwrs
  • Creu pob segment ar gyfer ei signal sain wedi'i dargedu gyda phadin 200-400 milieiliad ar ddechrau a diwedd.
  • Ar gyfer pob segment, rhaid llenwi'r gwrthrychau canlynol hy, Amser Cychwyn, Amser Gorffen, ID Segment, Lefel Cryfder, Math o Sain, Cod Iaith, ID Siaradwr, ac ati.

Trawsgrifio Data

  • Dilynwch ganllawiau trawsgrifio manylion ynghylch Cymeriadau a Symbolau Arbennig, Sillafu a Gramadeg, Priflythrennu, Byrfoddau, Cyfyngiadau, Llythyrau Llafar Unigol, Rhifau, Atalnodi, Acronymau, Anghyfleustra, Lleferydd, Lleferydd Annealladwy, Ieithoedd Di-Targed, Heb Leferydd ac ati.

Gwiriad Ansawdd ac Adborth

  • Pob recordiad i gael ei asesu a'i ddilysu o ansawdd, dim ond lleferydd wedi'i ddilysu i'w gyflwyno

Ateb

Gyda'n dealltwriaeth ddofn o AI sgyrsiol, fe wnaethom helpu'r cleient i gasglu, segmentu a thrawsgrifio'r data gyda thîm o gasglwyr, ieithyddion ac anodyddion arbenigol i adeiladu corpws mawr o set ddata sain mewn 8 iaith Indiaidd

Roedd cwmpas gwaith Shaip yn cynnwys ond nid yn gyfyngedig i gaffael llawer iawn o ddata hyfforddiant sain, segmentu'r recordiadau sain yn lluosog, trawsgrifio'r data a chyflwyno ffeiliau JSON cyfatebol yn cynnwys y metadata [SpeakerID, Oedran, Rhyw, Iaith, Tafodiaith,
Mamiaith, Cymhwyster, Galwedigaeth, Parth, Fformat Ffeil, Amlder, Sianel, Math o Sain, Nifer y siaradwyr, Nifer yr Ieithoedd Tramor, Y Gosodiad a Ddefnyddir, Band Cul neu Sain Band Eang, ac ati]. 

Casglodd Shaip 3000 awr o ddata sain ar raddfa wrth gynnal y lefelau ansawdd dymunol sydd eu hangen i hyfforddi technoleg lleferydd ar gyfer prosiectau cymhleth. Cymerwyd Ffurflen Caniatâd Penodol gan bob un o'r cyfranogwyr.

1. Casglu data