Slot-ID: Generasi Video Preservasi Identitas dari Video Referensi melalui Enkode Identitas Temporal Berbasis Slot

Abstrak

Memproduksi video yang setia pada prompt dan mempertahankan identitas pengguna tetap menantang: model perlu mengekstrapolasi dinamika wajah dari referensi yang sedikit sambil menyeimbangkan pelestarian identitas dan kealamian gerakan. Mengkondisikan pada satu gambar mengabaikan ciri temporal, menyebabkan gerakan terkunci postur, warping tidak alami, dan wajah rata-rata saat sudut pandang dan ekspresi berubah. Untuk itu, kami memperkenalkan varian generator video difusi-transformer yang dikondisikan identitas menggunakan video referensi pendek daripada satu potret. Ide utama adalah menggabungkan dinamika dalam referensi. Klip pendek mengungkap pola khusus subjek, misalnya bagaimana senyum terbentuk, di berbagai postur dan pencahayaan. Dari klip ini, encoder yang dirutekan Sinkhorn mempelajari token identitas ringkas yang menangkap dinamika karakteristik sambil tetap kompatibel dengan backbone terlatih. Meskipun hanya menambahkan pengondisian ringan, pendekatan ini secara konsisten meningkatkan retensi identitas di bawah perubahan postur besar dan perilaku wajah ekspresif, sambil mempertahankan kesetiaan prompt dan realisme visual pada berbagai subjek dan prompt.