Astudiaeth Achos Cerddoriaeth AI

Casglu Data Llais Canu

Casgliad Sain Canu Seiliedig ar Lais ar gyfer Hyfforddiant EQ ac Algorithm Cywasgu: Dal Amrywiaeth Ieithyddol a Cherddorol

Casgliad sain canu sy'n seiliedig ar lais

Trosolwg o'r Prosiect

Ymunodd Shaip â chwmni technoleg blaenllaw i gasglu recordiadau sain canu amrywiol ar draws pedair iaith â blaenoriaeth: Tsieinëeg, Arabeg, Sbaeneg a Rwsieg. Nod y prosiect oedd darparu data o ansawdd uchel ar gyfer hyfforddi EQ seiliedig ar AI ac algorithmau cywasgu, sy'n hanfodol ar gyfer gwella prosesu sain awtomataidd.

Roedd y casgliad yn cynnwys 40 o gyfranogwyr (10 i bob iaith) o genres amrywiol, gyda ffocws ar recordiadau o ansawdd stiwdio gan ddefnyddio microffonau ac amgylcheddau amrywiol.

Casgliad sain canu

Ystadegau Allweddol

4 iaith: Tsieineaidd, Arabeg, Sbaeneg, Rwsieg

10 o gantorion y
iaith (cyfanswm o 40)

oriau 20 of
canu sain

Fformat sain: 48 kHz PCM, mono, WAV

Trawsgrifio sain mewn ieithoedd brodorol

Hyd y Prosiect:
Wythnosau 18

Cwmpas y Prosiect

Casglu data

Roedd y cwmpas yn cwmpasu'r casgliad o sain canu mewn pedair iaith wedi'u targedu, wedi'u recordio gan artistiaid go iawn ar draws sawl genre cerddorol. Defnyddiwyd amgylchedd stiwdio i sicrhau recordiadau o ansawdd uchel sy'n addas ar gyfer hyfforddi modelau AI.

Gofynion Allweddol

  • Cyfranogwyr: 10 canwr fesul iaith, gyda dosbarthiad rhyw cytbwys (50% gwrywaidd, 50% benywaidd).
  • Genres: Amrywiaeth o genres, wedi'u nodi gan yr artist eu hunain, wedi'u dilysu am gysondeb.
  • Amgylchedd Cofnodi: Ansawdd stiwdio, gyda gosodiadau meicroffon lluosog (deinamig, cyddwysydd).
  • Fformat Sain: 48 kHz PCM, mono, ffeiliau WAV, heb unrhyw brosesu (ee, dim cywasgu, EQ, reverb).
  • trawsgrifiad: Caneuon i'w trawsgrifio yn yr iaith y cânt eu canu, gyda rheolau arbennig ar gyfer caneuon dwyieithog.
  • Ieithoedd: Tsieineaidd, Arabeg, Sbaeneg, Rwsieg
  • Trawsgrifiad
    • Dylid darparu trawsgrifiadau yn iaith y recordiad (ee, llinellau Hindi yn Devanagari, ac yna Saesneg).
    • Sicrhewch nad yw pob segment yn hwy na 15 eiliad er eglurder a chywirdeb.
  • Gofynion Recordio Sain
    • O leiaf 3 gosodiad meicroffon fesul sesiwn recordio.
    • 3 munud y gân, gyda 3 yn cymryd y gân, gan sicrhau recordiadau meicroffon amrywiol ar gyfer pob cyfranogwr.
    • Amgylchedd acwstig o ansawdd stiwdio heb unrhyw sŵn cefndir.

Heriau

Amrywiaeth Cyfranogwyr

Roedd sicrhau dosbarthiad cytbwys o gantorion yn ôl rhyw, tôn llais/traw, a genre cerddorol yn her gymhleth.

Cysondeb Data

Cynnal gosodiadau ac amgylchedd meicroffon cyson wrth ddal perfformiadau lleisiol amrywiol mewn sawl iaith.

Rheoli Ansawdd Sain

Sicrhau sain o ansawdd stiwdio heb sŵn allanol, a thrawsgrifio cywir mewn sawl iaith.

Ateb

Darparodd Shaip ateb cynhwysfawr i fodloni gofynion y prosiect trwy:

  • Recriwtio 40 o gantorion ar draws pedair iaith a sicrhau cynrychiolaeth amrywiol o ran rhyw, traw ac arddull cerddorol.
  • Cynnal recordiadau o ansawdd stiwdio gyda mathau amrywiol o feicroffonau (deinamig, cyddwysydd) i ddal ystod eang o ddata sain.
  • Trawsgrifio recordiadau yn gywir yn yr ieithoedd a ddefnyddir, gan ddilyn rheolau penodol ar gyfer caneuon dwyieithog.
  • Caniatâd: Cesglir ffurflenni caniatâd gan yr holl gyfranogwyr cyn recordio.

Canlyniad

Roedd y data sain canu amrywiol a gasglwyd yn caniatáu i'r cleient ddatblygu set hyfforddi gadarn ar gyfer algorithmau EQ a chywasgu awtomataidd, gan wella ansawdd prosesu sain. Sicrhaodd y recordiadau o ansawdd uchel a’r metadata manwl y gallai’r modelau AI ymdrin â gwahanol genres cerddorol a chymhlethdodau ieithyddol. Canlyniadau Allweddol:

  • Data sain amrywiol o ansawdd uchel ar gyfer hyfforddi systemau AI.
  • Trawsgrifio a metadata cywir i'w dadansoddi.
  • Sylfaen gryfach ar gyfer offer prosesu sain seiliedig ar AI.

Cyflawniadau

  • 20 awr o recordiadau sain o ansawdd stiwdio (48 kHz PCM, ffeiliau mono WAV).
  • Trawsgrifiadau yn iaith y recordiad.
  • Metadata: gwneuthuriad/model meicroffon, rhyngwyneb DAC/sain, proffil canwr, gwybodaeth genre.
  • Fformat JSON ar gyfer trawsgrifio gyda metadata.

Mae gallu Shaip i ddal yr amrywiaeth o dalent gerddorol a chyfoeth ieithyddol wedi bod yn amhrisiadwy ar gyfer datblygu ein algorithmau EQ a chywasgu. Sicrhaodd eu tîm fod pob agwedd, o recriwtio artistiaid i ansawdd recordio, yn cael ei thrin yn fanwl gywir, gan wneud hwn yn gam hanfodol wrth fireinio ein systemau prosesu sain awtomataidd.

Rydym yn wirioneddol ddiolchgar am yr ymddiriedaeth a’r cydweithio y mae Shaip wedi’u dangos drwy gydol y broses. Er gwaethaf ein gofynion technegol llym a heriol, mae eu hymroddiad, eu gwaith caled, a'u sylw i fanylion wedi bod yn rhagorol. Mae wedi bod yn bleser gweithio gyda thîm sydd mor ymroddedig i gyflawni rhagoriaeth

Aur-5-seren