Slot-ID: Generasi Video Preservasi Identitas dari Video Referensi melalui Enkode Identitas Temporal Berbasis Slot
Abstrak
Memproduksi video yang setia pada prompt dan mempertahankan identitas pengguna tetap menantang: model perlu mengekstrapolasi dinamika wajah dari referensi yang sedikit sambil menyeimbangkan pelestarian identitas dan kealamian gerakan. Mengkondisikan pada satu gambar mengabaikan ciri temporal, menyebabkan gerakan terkunci postur, warping tidak alami, dan wajah rata-rata saat sudut pandang dan ekspresi berubah. Untuk itu, kami memperkenalkan varian generator video difusi-transformer yang dikondisikan identitas menggunakan video referensi pendek daripada satu potret. Ide utama adalah menggabungkan dinamika dalam referensi. Klip pendek mengungkap pola khusus subjek, misalnya bagaimana senyum terbentuk, di berbagai postur dan pencahayaan. Dari klip ini, encoder yang dirutekan Sinkhorn mempelajari token identitas ringkas yang menangkap dinamika karakteristik sambil tetap kompatibel dengan backbone terlatih. Meskipun hanya menambahkan pengondisian ringan, pendekatan ini secara konsisten meningkatkan retensi identitas di bawah perubahan postur besar dan perilaku wajah ekspresif, sambil mempertahankan kesetiaan prompt dan realisme visual pada berbagai subjek dan prompt.
Penulis
Yixuan Lai, He Wang, Kun Zhou, Tianjia Shao
Subjek
Computer Vision and Pattern Recognition (cs); Artificial Intelligence (cs)
Kutipan
arXiv:2601.01352 [cs]
Platform Lainnya
Berita Piala Dunia
Jika Anda memiliki pertanyaan, silakan kirim email ke [email protected]