Casglu data llais yn y car
Astudiaeth Achos: Casgliad Ymadroddion Allweddol ar gyfer systemau a weithredir gan y llais yn y car
Mae galw cynyddol am systemau sy'n cael eu hysgogi gan lais yn y car yn y Diwydiant Ceir, gan ailddiffinio sut rydym yn ymgysylltu â'n cerbydau symudedd.
Mae'r diwydiant modurol wedi mabwysiadu systemau llais-actifadu yn gyflym, gyda chwaraewyr mawr fel Ford, Tesla, a BMW yn integreiddio adnabyddiaeth llais uwch yn eu cerbydau. Erbyn 2022, amcangyfrifwyd bod dros 50% o geir newydd yn cynnwys galluoedd adnabod llais. Nod yr integreiddiadau hyn yw gwella diogelwch, gan ganiatáu i yrwyr weithredu swyddogaethau llywio, adloniant a chyfathrebu heb wrthdyniadau.
Rhagwelwyd y byddai gwerth y farchnad ar gyfer adnabod llais mewn ceir yn fwy na $1 biliwn erbyn 2023, gan ddangos galw cynyddol am ryngweithiadau deallus heb ddwylo yn y car.
Diwydiant Ceir
Mae ymchwil yn awgrymu y bydd 2022% o yrwyr erbyn 73 yn defnyddio cynorthwyydd llais yn y car.
Prisiwyd y Farchnad System Cydnabod Llais Modurol ar USD 2.01 Bn yn 2021, a disgwylir iddi gyrraedd USD 3.51 Bn erbyn 2027, gan gofrestru CAGR o tua 8.07%.
Datrysiad y Byd Go Iawn
Data sy'n pweru systemau a weithredir gan lais
Mae systemau sy'n cael eu hysgogi gan lais mewn ceir yn gwella diogelwch a hwylustod. Maent yn caniatáu i yrwyr gael mynediad i lywio, gwneud galwadau, anfon negeseuon testun, a rheoli cerddoriaeth heb dynnu dwylo oddi ar y llyw neu lygaid oddi ar y ffordd. Trwy ymateb i orchmynion llafar, mae'r systemau hyn yn lleihau tynnu sylw, yn hyrwyddo amldasgio, ac yn sicrhau ffocws parhaus ar yrru.
Mae'r cleient yn arweinydd byd-eang mewn cudd-wybodaeth sgwrsio sy'n cynnig atebion AI llais sy'n gadael i fusnesau gynnig profiadau sgwrsio anhygoel i'w cwsmeriaid. Roeddent yn gweithio gyda chwmnïau modurol blaenllaw i hyfforddi eu systemau sy'n cael eu hysgogi gan lais gydag ymadroddion allweddol wedi'u brandio ac roedd angen arbenigedd Shaip mewn casglu data sain arnynt.
Heriau
- Cyrchu Torfol: Recriwtio 2800+ o siaradwyr brodorol fesul iaith yn fyd-eang.
- Casglu data: Sicrhewch 200k+ o anogwyr mewn 12 iaith o fewn amserlen benodol.
- Cydnabod Cyd-destun a Bwriad: Er mwyn deall ceisiadau defnyddwyr yn gywir, roedd angen hyfforddi systemau ar amrywiadau gwahanol ar gyfer yr un ymadrodd allweddol.
- Trin Sŵn Cefndir: Mynd i'r afael â sŵn cefndir byd go iawn ar gyfer cywirdeb model ML.
- Lleihau Tuedd: Caffael samplau llais o ddemograffeg amrywiol i sicrhau cynwysoldeb.
- Manylebau Sain: 16khz 16bits PCM, mono, sianel sengl, WAV; dim prosesu.
- Amgylchedd Cofnodi: Dylai recordiadau fod â sain lân heb sŵn cefndir nac aflonyddwch. Ymadroddion Allweddol i'w recordio gan ddefnyddio lleferydd normal.
- Gwiriad Ansawdd: Bydd pob recordiad lleferydd yn cael ei asesu a'i ddilysu o ansawdd, dim ond recordiadau lleferydd dilys a gyflwynir. Os na fydd Shaip yn bodloni'r Safonau Ansawdd y cytunwyd arnynt, bydd Shaip yn ailddarparu data heb unrhyw gost ychwanegol
Ateb
Galluogodd Shaip gyda'i arbenigedd yn y gofod AI Sgwrsio'r cleient gyda:
- Casglu data: 208k o ymadroddion allweddol/ysgogiadau brand wedi'u casglu mewn 12 iaith fyd-eang gan 2800 o siaradwyr o fewn yr amserlen a bennwyd
- Acenion a Thafodieithoedd Amrywiol: Arbenigwyr wedi'u recriwtio o bob rhan o'r byd, yn hyddysg yn yr acenion a'r tafodieithoedd dymunol.
- Cydnabod Cyd-destun a Bwriad: Rhoddwyd y dasg i bob siaradwr o gofnodi'r ymadroddion allweddol mewn 20 amrywiad gwahanol, gan alluogi'r modelau ML i ddeall ceisiadau defnyddwyr yn gywir o ran cyd-destun a bwriad.
- Cefndir Trin Sŵn: Er mwyn sicrhau ansawdd sain newydd, gwnaethom yn siŵr bod yr ymadroddion allweddol yn cael eu dal mewn amgylchedd tawel gyda lefelau sŵn o dan 40dB, heb unrhyw aflonyddwch cefndir fel teledu, radio, cerddoriaeth, lleferydd neu synau stryd.
- Lleihau Tuedd: Er mwyn lleihau rhagfarn, fe wnaethom ymgysylltu ag unigolion o ranbarthau amrywiol a chynnal cynrychiolaeth ddemograffig gytbwys gyda 50% o wrywod a 50% o fenywod, yn rhychwantu grwpiau oedran o 18 i 60 oed.
- Canllawiau Cofnodi: Cafodd yr ymadroddion allweddol eu dal mewn patrwm lleferydd cyson, arferol, heb unrhyw amrywiadau megis cyflymder cyflym neu araf. 2 eiliad o dawelwch ar y dechrau a'r diwedd i warantu na chafodd unrhyw ran o'r araith ei chlicio'n anfwriadol.
- Fforma Recordio: Recordiwyd y sain ar 16kHz, PCM 16-did mewn mono, gan ddefnyddio un sianel, a'i chadw yn fformat ffeil WAV. Mae'r sain yn parhau i fod heb ei phrosesu, sy'n golygu nad oedd unrhyw gymhwyso cywasgu, reverb, neu EQ.
- Ansawdd: Roedd pob recordiad lleferydd yn destun gwiriadau ansawdd trylwyr a dilysiad. Dim ond recordiadau a basiodd yr asesiad hwn a gyflwynwyd. Roedd unrhyw ffeiliau nad oedd yn cyrraedd y safonau ansawdd y cytunwyd arnynt yn cael eu hail-gofnodi a'u darparu heb unrhyw gostau ychwanegol
Canlyniad
Bydd y data sain ymadrodd allweddol brand o ansawdd uchel neu anogwyr llais yn galluogi'r cwmnïau modurol a'u cwsmeriaid gyda:
- Brandio a Hunaniaeth: Mae anogwyr llais gydag ymadrodd brand penodol yn helpu cwmnïau i greu cysylltiad uniongyrchol a chofiadwy rhwng y defnyddiwr a'r brand sy'n gwella galw brand i gof.
- Rhwyddineb Defnyddio: Mae gorchmynion llais yn ei gwneud hi'n haws i yrwyr ryngweithio â cherbydau heb dynnu eu dwylo oddi ar y llyw na'u llygaid oddi ar y ffordd gan wella diogelwch ar y ffyrdd.
- Swyddogaetholdeb: Mae gorchmynion llais yn gwneud cyrchu a rheoli nodweddion car yn fwy greddfol. Boed ei llywio, chwarae cyfryngau, neu reoli hinsawdd.
- Integreiddio â Systemau Eraill: Mae llawer o systemau sy'n cael eu hysgogi gan lais wedi'u hintegreiddio â ffonau smart, dyfeisiau cartref craff, a dyfeisiau IoT eraill. Er enghraifft, efallai y bydd defnyddiwr yn gallu gofyn i'w gar droi'r goleuadau ymlaen gartref wrth iddynt ddynesu adref.
- Mantais gystadleuol: Gall cynnig systemau uwch a weithredir gan lais fod yn bwynt gwerthu ac yn wahaniaethwr. Mae prynwyr yn chwilio am y dechnoleg ddiweddaraf wrth ystyried prynu car newydd.
- Diogelu'r Dyfodol: Wrth i dechnoleg ddatblygu ac wrth i IoT ddod yn fwy integredig i fywyd bob dydd, mae system gadarn wedi'i hysgogi gan lais yn golygu bod cwmnïau modurol yn gallu addasu'n well i dechnoleg y dyfodol.
- Cyfleoedd Refeniw: Cyfleoedd ariannol ychwanegol hy, mae systemau llais yn cynnig argymhellion neu brofiadau e-fasnach integredig (fel archebu bwyd neu ddod o hyd i wasanaethau cyfagos) a allai ddarparu refeniw cyswllt.
Pan ddechreuon ni ddod o hyd i awgrymiadau llais ar gyfer y sector modurol, roedd yr heriau'n niferus. Roedd dal yr amrywiaeth mewn lleferydd, acenion, a thonau yn hanfodol i gynrychioli cwsmeriaid byd-eang ein cleient. Roedd Shaip yn sefyll allan nid yn unig fel gwerthwr, ond fel gwir bartner. Roedd eu hymrwymiad i sicrhau ystod amrywiol o leisiau o wahanol ranbarthau yn ganmoladwy. Aethant y tu hwnt i ddim ond casglu lleisiau; fe wnaethon nhw ddeall naws anghenion ein prosiect, gan warantu recordiadau o'r radd flaenaf. Roedd eu hymlyniad di-ffael at safonau casglu sain yn dangos eu proffesiynoldeb a'u hymroddiad i'r prosiect.