Cum extragi muzică din pixeli. Google duce inteligența artificială la nivelul următor

Laboratorul de cercetare DeepMind de la Google a dezvăluit o tehnologie revoluționară numită video-to-audio (V2A), care poate genera conținut audio sincronizat folosind pixelii videoclipului.

Această inovație este utilizată împreună cu generatorul de videoclipuri AI, Veo, și poate fi aplicată atât pe materiale video clasice, cât și pe filme mute sau materiale arhivate.

Citește și: Showrunner, serviciul de streaming unde tot conținutul este creat de AI. Cam așa va arăta Netflix în viitor

Ce poate face V2A, de la Google

V2A poate produce, în linii mari, un număr nelimitat de coloane sonore pentru orice videoclip.

Utilizatorii pot folosi prompturi text pozitive pentru a ghida producția audio sau prompturi negative pentru a evita anumite tonuri sau stiluri.

Modelul V2A utilizează o tehnică bazată pe difuzie în locul arhitecturii autoregresive.

Sistemul comprimă reprezentarea video și folosește modelele de difuzie pentru a genera content audio din zgomot, proces ghidat de elementele vizuale ale videoclipului.

În plus, ieșirea audio este decodificată, transformată într-o formă de undă audio și combinată cu datele video.

Cercetătorii de la Google au antrenat modelul pe o combinație de video, audio și adnotări suplimentare, ajutând astfel modelul să înțeleagă legătura dintre un eveniment vizual și sunetul asociat.

Citește și: Se întâmplă și invers. Un fotograf a fost scos dintr-o competiție pentru imagini generate de AI, după ce a câștigat cu o fotografie reală

Cum înțelege pixelul brut „ca un om mare”, dar are anumite limitări – deocamdată

Un aspect inovator al tehnologiei V2A este capacitatea de a înțelege pixelul brut, în timp ce prompturile text sunt opționale.

Mai mult decât atât, sistemul nu necesită alinierea manuală a sunetului generat cu videoclipul, eliminând necesitatea ajustării laborioase a diferitelor elemente sonore, vizuale și temporale.

Cu toate acestea, tehnologia V2A are unele limitări, deoarece calitatea ieșirii audio depinde de calitatea videoclipului de intrare.

Distorsiunile video sau alte artefacte nedorite pot afecta calitatea sunetului.

Sincronizarea buzelor, o caracteristică importantă pentru creatorii de videoclipuri AI, nu este încă pe deplin stăpânită, deoarece modelul nu poate fi condiționat pe transcrieri.

Deși V2A este un instrument fascinant pentru cei cărora le place să editeze video, acesta va rămâne momentan exclusiv pentru cercetătorii DeepMind, care doresc să îl supună unor evaluări de siguranță riguroase și alte teste înainte de a-l face disponibil la scară largă.

Citește și: Inteligența artificială îți înțelege câinele mai bine ca tine. Cum reușește AI-ul creat de români asta