Voĉ-transformo bazita sur reprenado
Voĉ-transformo bazita sur reprenado, aŭ angle Retrieval-based Voice Conversion (RVC) estas malfermkoda AI-algoritmo de voĉa transformado, kiu ebligas relative natursonajn transformojn de parolado al parolado, precize konservante la intonacion kaj karakterizaĵojn de la origina parolanto. [1]
Priskribo
[redakti | redakti fonton]Male al tekst-al-voĉaj sistemoj kiel ElevenLabs, RVC anstataŭe kreas dosierojn de parolo-al-parolo. Ĝi konservas la moduladon, tembron kaj voĉajn trajtojn de la origina parolanto, farante ĝin taŭga por aplikoj, kie la emocia tono estas grava.
La algoritmo ebligas ambaŭ antaŭprocesitajn kaj realtempajn voĉ-transformojn kun malalta respondotempo. Ĝia precizeco kaj flueco igis multajn rimarki, ke la generitaj sondosieroj sonas preskaŭ nedistingeblaj disde realaj voĉoj, tamen por labortabla uzado necesas sufiĉe potenca grafika procesoro kaj sufiĉa spaco en la ĉefmemoro, kaj ankaŭ altkvalita voĉmodelo. Iuj retejoj aldonis RVC-on al siaj servoj, farante ĝin uzebla sen la bezono elŝuti la tutan softvaron.[2][3]
Voĉ-transformo bazita sur reprenado estas metodo de voĉa klonado, kiu uzas antaŭtrejnitan modelon (plejofte trejnita per senbruaj registraĵoj de la voĉo de iu famulo, sed ne nur) por repreni kaj kombini segmentojn de ies parolado, ekzemple farante ke viro povu soni kiel virino, kaj male.
Uzoj kaj problemoj
[redakti | redakti fonton]La teknologio ebligas voĉan ŝanĝon kaj imiton, permesante al uzantoj krei precizajn modelojn de aliaj homoj uzante negrandan kvanton da klaraj sonspecimenoj (de 5 ĝis 20 minutoj, pli-malpli). Ĉi tiuj voĉmodeloj povas esti konservitaj kiel dosieroj .pth (PyTorch). Dum ĉi tiu kapablo povas faciligi multspecajn kreadojn, ĝi ankaŭ alportas zorgojn pri eblaj misuzoj, kiel profundaj falsaĵoj derivontaj en misinformado aŭ amasa mistifiko, trompaj telefonalvokoj ktp.[4][5] Ankaŭ ĝi starigas debaton pri la laŭleĝeco de la voĉmodeloj, multfoje bazitaj sur famaj kantistoj kaj aktoroj. Kontraŭ tio, ekzistas la eblo uzi nur «anonimajn» voĉmodelojn (t.e. modeloj faritaj pere de voĉkontribuoj de volontuloj mem).[6]
En popkulturo, ĉi tiu teknologio povas esti uzata por krei natursonajn reludversiojn de kantoj (anstataŭigante la originalajn voĉojn de kantistoj per la voĉoj de animaciaj personoj; ekzemple, iam famiĝis filmeto, kie la hispanamerika dublisto de Homer Simpson kantis kanton de Rocío Dúrcal[7]). Ĉi tiuj AI-reludversioj, kiuj povas soni surprize similaj al la voĉmodeloj, akiris popularecon ĉe sociaj retejoj kiel YouTube aŭ Tiktok.[8]
Eksteraj ligiloj
[redakti | redakti fonton]Referencoj
[redakti | redakti fonton]- ↑ https://medium.com/axinc-ai/rvc-an-ai-powered-voice-changer-39927cc83bee
- ↑ https://gudgud96.github.io/2024/09/26/annotated-rvc/#
- ↑ https://medium.com/qosmo-lab/state-of-the-art-singing-voice-conversion-methods-12f01b35405b
- ↑ https://www.wizcase.com/blog/deepfake-scam-research/
- ↑ https://intel471.com/blog/cybercriminals-and-ai-not-just-better-phishing
- ↑ https://medium.com/@soundniccolo/theyre-stealing-your-voice-ac707423e7cc
- ↑ https://www.infobae.com/mexico/2023/05/21/asi-canto-homero-simpson-la-gata-bajo-la-lluvia-gracias-a-la-ia/
- ↑ https://blenderartists.org/t/ai-covers-breaking-the-internet/1470150