Stabilitet AI lancerer stabil lyd til AI-lavet lydgenerering

Følgende artikel hjælper dig med: Stabilitet AI lancerer stabil lyd til AI-lavet lydgenerering

Stabilitet AIdet generative AI-firma bag Stable Diffusion, annoncerede i dag lanceringen af ​​sit første AI-produkt til musik- og lydgenerering, Stabil lyd. Produktet er rettet mod musikskabere, der ønsker at skabe eksempler til deres musik såvel som lydspor. Virksomheden sagde, at brugere kan indtaste tekstprompter for at generere lydspor af deres ønskede længde.

“Post-rock, guitarer, trommesæt, bas, strygere, Euphoric, Up-Lifting, Moody, Flowing, Raw, Epic, Sentimental, 125 BPM” kan indtastes med en anmodning om et 95-sekunders spor,” skrev Stability AI i en blogindlæg.

Virksomheden detaljerede også resultaterne af, hvordan promptbaseret musikgenerering fungerer i en video:

“Vi håber, at Stable Audio vil give musikentusiaster og kreative fagfolk mulighed for at generere nyt indhold ved hjælp af AI, og vi ser frem til de endeløse innovationer, det vil inspirere,” sagde Emad Mostaque, CEO for Stability AI, i en erklæring.

Ifølge Stability AI blev den grundlæggende model trænet ved hjælp af musik og metadata fra AudioSparx, et musikbibliotek. Virksomheden hævder, at Stable Audio-modellen er i stand til at gengive 95 sekunders stereolyd ved en 44,1 kHz samplerate på mindre end et sekund på en NVIDIA A100 GPU.

Stabilitets AI sagde, at Stable Audio-modellerne er latente diffusionsmodeller, der omfatter flere komponenter, ligesom Stable Diffusion. Disse komponenter omfatter en variationel autoencoder (VAE), en tekstkoder og en U-Net-baseret betinget diffusionsmodel.

Som pr forskningsrapport af virksomheden omdanner VAE stereolyd til en kompakt, støjbestandig og reversibel tabsgivende latent kodning. Denne kodning muliggør hurtigere generering og træning sammenlignet med at arbejde direkte med rå lydeksempler.

🔥 Anbefalede:  MediaTeks Dimensity 9200-chip er spækket med verdens første teknologi
via Stability AI

Den latente diffusionsarkitektur udnytter lyddata under hensyntagen til tekstmetadata, lydfilsvarighed og starttidspunkt. Denne tilgang tillader kontrol over både indholdet og varigheden af ​​den genererede lyd. For at betinge modellen på tekstprompter anvender lydplatformen den frosne tekstkoder af en KLAPPE model, der blev trænet fra bunden på sit datasæt.

En gratis version af Stable Audio med begrænsede funktioner er tilgængelig, som giver brugerne mulighed for at oprette og downloade spor på op til 20 sekunder. Derudover er der en ‘Pro’-abonnementsmulighed, der tilbyder udvidede 90-sekunders spor, der egner sig til kommercielle projekter.

Stable Audio er den seneste i en nyere serie af AI-produkter, som Stability AI har udgivet. Alene i august udgav virksomheden en japansk sprogmodel og stabil chat, som har til formål at konkurrere med ChatGPT.