Astudiaeth Achos: Casglu Llafaredd

Wedi darparu 7M+ o ymadroddion i adeiladu cynorthwywyr digidol amlieithog mewn 13 iaith

Casgliad Utterance

Datrysiad y Byd Go Iawn

Data sy'n pweru sgyrsiau byd-eang

Mae'r angen am hyfforddiant Utterance yn codi oherwydd nid yw pob cwsmer yn defnyddio'r union eiriau neu ymadroddion wrth ryngweithio neu ofyn cwestiynau i'w cynorthwywyr llais mewn fformat wedi'i sgriptio. Dyna pam mae'n rhaid hyfforddi cymwysiadau llais penodol ar ddata lleferydd digymell. Ee, “Ble mae'r ysbyty agosaf?” “Dewch o hyd i ysbyty yn fy ymyl” neu “A oes ysbyty gerllaw?” mae pob un yn nodi'r un bwriad chwilio ond wedi'u geirio'n wahanol.

Casgliad Llafaredd1

Problem

Er mwyn gweithredu map ffordd lleferydd Cynorthwyydd Digidol cleientiaid ar gyfer ieithoedd byd-eang, roedd angen i'r tîm gaffael llawer iawn o ddata hyfforddi ar gyfer y model AI adnabod lleferydd. Gofynion hanfodol y cleient oedd:

  • Caffael llawer iawn o ddata hyfforddi (ysgogiadau llafar un siaradwr o ddim mwy na 3-30 eiliad) ar gyfer gwasanaethau adnabod lleferydd mewn 13 o ieithoedd byd-eang
  • Ar gyfer pob iaith, bydd y cyflenwr yn cynhyrchu anogwyr testun i siaradwyr eu recordio (oni bai bod y
    cyflenwadau cleient) a thrawsgrifio'r sain canlyniadol.
  • Darparu data sain a thrawsgrifiad o ymadroddion wedi'u recordio gyda ffeiliau JSON cyfatebol
    yn cynnwys y metadata ar gyfer pob recordiad.
  • Sicrhau cymysgedd amrywiol o siaradwyr yn ôl oedran, rhyw, addysg a thafodiaith
  • Sicrhau cymysgedd amrywiol o amgylcheddau cofnodi yn unol â'r Manylebau.
  • Rhaid i bob recordiad sain fod o leiaf 16kHz ond yn ddelfrydol yn 44kHz

Cyflymwch eich AI Sgwrsio
datblygu cymwysiadau 100%

“Ar ôl gwerthuso llawer o werthwyr, dewisodd y cleient Shaip oherwydd eu harbenigedd mewn prosiectau AI sgwrsio. Crëwyd argraff arnom gan gymhwysedd gweithredu prosiect Shaip, a’u harbenigedd i ddod o hyd i, trawsgrifio a chyflwyno’r ymadroddion gofynnol gan ieithyddion arbenigol mewn 13 o ieithoedd o fewn terfynau amser llym a chyda’r ansawdd gofynnol”

Ateb

Gyda’n dealltwriaeth ddofn o AI sgyrsiol, fe wnaethom helpu’r cleient i gasglu, trawsgrifio ac anodi’r data gyda thîm o ieithyddion ac anodyddion arbenigol i hyfforddi eu Swît Llais amlieithog Prosesu Lleferydd wedi’i phweru gan AI.

Roedd cwmpas y gwaith ar gyfer Shaip yn cynnwys ond nid yn gyfyngedig i gaffael llawer iawn o ddata hyfforddiant sain ar gyfer adnabod lleferydd, trawsgrifio recordiadau sain mewn sawl iaith ar gyfer pob iaith ar ein map ffordd iaith Haen 1 a Haen 2, a chyflwyno rhaglenni cyfatebol JSON ffeiliau sy'n cynnwys y metadata. Casglodd Shaip ymadroddion o 3-30 eiliad ar raddfa wrth gynnal y lefelau ansawdd dymunol sydd eu hangen i hyfforddi modelau ML ar gyfer prosiectau cymhleth.

  • Sain Wedi'i Gasglu, ei Trawsgrifio a'i Anodi: oriau 22,250
  • Ieithoedd a Gefnogir: 13 (Danmarc, Corëeg, Saudi Arabia Arabeg, Iseldireg, Mainland & Taiwan Chinese, Ffrangeg Canada, Mecsicanaidd Sbaeneg, Twrceg, Hindi, Pwyleg, Japaneaidd, Rwsieg)
  • Nifer y Testunau: 7M +
  • Llinell amser: 7-8 mis

Wrth gasglu ymadroddion sain ar 16 kHz, fe wnaethom sicrhau cymysgedd iach o siaradwyr yn ôl oedran, rhyw, addysg, a thafodieithoedd mewn amgylcheddau recordio amrywiol.

Canlyniad

Roedd y data llafar o ansawdd uchel gan ieithyddion arbenigol yn grymuso'r cleient i hyfforddi'n gywir
eu model Cydnabod Lleferydd amlieithog mewn 13 o ieithoedd Haen 1 a 2 Fyd-eang. Gyda setiau data hyfforddi o safon aur, gall y cleient gynnig cymorth digidol deallus a chadarn i ddatrys problemau byd go iawn yn y dyfodol.

Ein Harbenigedd

0 +
Oriau Araith a Gasglwyd
0
Tîm o Gasglwyr Data Llais
0 %
PII Cydymffurfio
0 +
Rhif Cool
> 0
Derbyn Data a Chywirdeb
0 +
Fortune 500 o gleientiaid

Dywedwch wrthym sut y gallwn helpu gyda'ch menter AI nesaf.