SingSong: Google AI-forskere finder en måde at generere musik til at akkompagnere inputvokaler

Følgende artikel hjælper dig med: SingSong: Google AI-forskere finder en måde at generere musik til at akkompagnere inputvokaler

Forskere hos Google har fundet en måde at bruge kunstig intelligens til at generere musik, der er kompatibel med sang. Det nye system, kaldet SingSong, bruger en dyb læringsmodel til at generere akkompagnement, der er mere synkroniseret med sang end andre eksisterende systemer. Forskerne siger, at systemet kunne bruges til at skabe karaoke-numre til professionelle sangere eller til at hjælpe amatørsangere med at finde akkompagnement, der passer bedre til deres stemmer.

Karaoke omvendt: AI-forskere finder en måde at generere musik til at synge påTidligere systemer til at generere akkompagnement har været afhængige af algoritmer, der forsøger at matche timingen og tonehøjden for sangen.

Syng sang er et system udviklet af Google, der skaber instrumental musik til at akkompagnere inputvokal. Det kan give både musikere og ikke-musikere en enkel ny tilgang til at lave musik med deres egne stemmer. Udviklere bygger videre på de seneste fremskridt inden for musikalsk kildeadskillelse og lydproduktion for at opnå dette. Udviklere bruger specifikt en banebrydende kildeadskillelsesmetode til at bygge afstemte vokale og instrumentale kildepar fra et massivt korpus af musikoptagelser. Derefter ændrer udviklere AudioLM, en banebrydende metode til ubetinget lydproduktion, så den kan trænes i kildeseparerede (vokale, instrumentale) par til betingede “lyd-til-lyd”-genereringsopgaver.

AI-forskere undersøger forskellige funktioner i vokalinput, hvoraf det bedste forbedrer den kvantitative ydeevne på isolerede vokaler med 53 % sammenlignet med standard AudioLM-funktioner, for at forbedre systemets generalisering fra kildeseparerede træningsdata (hvor vokalerne indeholder artefakter af instrumental) til isolerede vokaler, som udviklere kan forvente af brugere. Lytterne udviste en væsentlig præference for instrumentaler produceret af SingSong frem for dem fra en stærk genfindingsbaseline i en parvis sammenligning med de samme stemmeinput.

🔥 Anbefalede:  13 Indholdsskrivningsfejl og praktiske tips til at undgå dem‍

Det nye system bruger derimod en dyb læringsmodel, der er blevet trænet på et stort datasæt af musik. Dette gør det muligt for systemet at generere akkompagnement, der er synkroniseret med sangerens stemme og timing.

Til undersøgelsen får lytterne to 10-sekunders vokal-instrumentale mashups, hvor stemmerne (taget fra MUSDB18-testen) er de samme, mens instrumentalerne er forskellige og kommer fra forskellige kilder (ground truth, google-modeller eller baselines). Spørgsmålet beder lytterne om at vælge, hvilken af ​​de to kombinationer, de føler, at den instrumentale baggrund passer mere musikalsk til vokalen.

SingSongs friske eksempler

Ved at bruge en række dybe neurale netværk og generative modeller er udviklere i stand til at producere harmoniske akkompagnementer uden latens for længere segmenter.

MUSDB18-datasættets professionelle stemmer blev brugt i de foregående eksempler. Vi er også fascineret af SingSongs evne til at støtte og gøre det muligt for enhver at skabe musik med deres stemme. Her undersøger vi dette ved hjælp af stemmeprøver fra Vocadito-datasættet, som inkluderer optagelser af amatørvokalister lavet på forbrugerelektronik.

Systemet er stadig i de tidlige udviklingsstadier. Mens forskerne siger, at det skal forbedres, før det kan bruges kommercielt, mener de, at det har potentialet til at revolutionere karaokeindustrien og hjælpe amatørsangere med at finde akkompagnement, der fungerer godt for dem.

Læs flere relaterede artikler: