Romanian Geek

Tehnologie, filme, muzică

Cum extragi muzică din pixeli. Google duce inteligența artificială la nivelul următor
Audio Inteligență artificială TEHNOLOGIE

Cum extragi muzică din pixeli. Google duce inteligența artificială la nivelul următor

Laboratorul de cercetare DeepMind de la Google a dezvăluit o tehnologie revoluționară numită video-to-audio (V2A), care poate genera conținut audio sincronizat folosind pixelii videoclipului.

Această inovație este utilizată împreună cu generatorul de videoclipuri AI, Veo, și poate fi aplicată atât pe materiale video clasice, cât și pe filme mute sau materiale arhivate.

Citește și: Showrunner, serviciul de streaming unde tot conținutul este creat de AI. Cam așa va arăta Netflix în viitor

Ce poate face V2A, de la Google

V2A poate produce, în linii mari, un număr nelimitat de coloane sonore pentru orice videoclip.

Utilizatorii pot folosi prompturi text pozitive pentru a ghida producția audio sau prompturi negative pentru a evita anumite tonuri sau stiluri.

Modelul V2A utilizează o tehnică bazată pe difuzie în locul arhitecturii autoregresive.

Sistemul comprimă reprezentarea video și folosește modelele de difuzie pentru a genera content audio din zgomot, proces ghidat de elementele vizuale ale videoclipului.

În plus, ieșirea audio este decodificată, transformată într-o formă de undă audio și combinată cu datele video.

Cercetătorii de la Google au antrenat modelul pe o combinație de video, audio și adnotări suplimentare, ajutând astfel modelul să înțeleagă legătura dintre un eveniment vizual și sunetul asociat.

Citește și: Se întâmplă și invers. Un fotograf a fost scos dintr-o competiție pentru imagini generate de AI, după ce a câștigat cu o fotografie reală

Cum înțelege pixelul brut „ca un om mare”, dar are anumite limitări – deocamdată

Un aspect inovator al tehnologiei V2A este capacitatea de a înțelege pixelul brut, în timp ce prompturile text sunt opționale.

Mai mult decât atât, sistemul nu necesită alinierea manuală a sunetului generat cu videoclipul, eliminând necesitatea ajustării laborioase a diferitelor elemente sonore, vizuale și temporale.

Cu toate acestea, tehnologia V2A are unele limitări, deoarece calitatea ieșirii audio depinde de calitatea videoclipului de intrare.

Distorsiunile video sau alte artefacte nedorite pot afecta calitatea sunetului.

Sincronizarea buzelor, o caracteristică importantă pentru creatorii de videoclipuri AI, nu este încă pe deplin stăpânită, deoarece modelul nu poate fi condiționat pe transcrieri.

Deși V2A este un instrument fascinant pentru cei cărora le place să editeze video, acesta va rămâne momentan exclusiv pentru cercetătorii DeepMind, care doresc să îl supună unor evaluări de siguranță riguroase și alte teste înainte de a-l face disponibil la scară largă.

Citește și: Inteligența artificială îți înțelege câinele mai bine ca tine. Cum reușește AI-ul creat de români asta

Primul meu contact cu presa s-a întâmplă la vârsta de 11 ani, când ziarul călărășean Pământul mi-a oferit ocazia să public în rubrica destinată copiilor. Peste ani, ajungeam la Galați unde aveam să lucrez o perioadă la cotidianul local Viața Liberă. Între timp, mi-am ocupat timpul cu bloggingul, ajungând, în 2010, să câștig BLOGWARS, totul că în 2013 să particip din nou și să bifez locul al doilea. În ultimii ani am colaborat cu o serie de publicații online unde am scris despre politică și administrație, iar ultima colaborare se referă la revista de tehnologie Playtech.ro.
Verified by MonsterInsights