无需训练即可创建数字人,字节PersonaTalk视频口型编辑超SOTA
更新时间:2024-10-26 16:18 浏览量:33
在 AIGC 的热潮下,基于语音驱动的视频口型编辑技术成为了视频内容个性化与智能化的重要手段之一。尤其是近两年爆火的数字人直播带货,以及传遍全网的霉霉讲中文、郭德纲用英语讲相声,都印证着视频口型编辑技术已经逐渐在行业中被广泛应用,备受市场关注。近期,字节跳动一项名为 PersonaTalk 的相关技术成果入选了 SIGGRAPH Asia 2024-Conference Track,该方案能不受原视频质量的影响,保障生成视频质量的同时兼顾 zero-shot 技术的便捷和稳定,可以通过非常便捷高效的方式用语音修改视频中人物的口型,完成高质量视频编辑,快速实现数字人视频制作以及口播内容的二次创作。肖像来自学术数据集 HDTF目前的视频改口型技术大致可以分为两类。一类是市面上最常见的定制化训练,需要用户首先提供 2-3mins 的人物视频数据,然后通过训练让模型对这段数据中的人物特征进行过拟合,最终实现该数据片段中人物口型的修改。这类方案在效果上相对成熟,但是需要耗费几个小时甚至几天的模型训练时间,成本较高,很难实现视频内容的快速生产;与此同时,这类方案对人物视频的质量要求往往偏高,如果视频中的人物口型动作不标准或者环境变化太复杂,训练后的效果会大打折扣。除了定制化训练之外,还有另一类 zero-shot 方案,可以通过大量数据来对模型进行预训练,让模型具备较强的泛化性,在实际使用的过程中不需要再针对特定人物去做模型微调,能做到即插即用,成功解决了定制化方案成本高,效果不鲁棒的问题。但这类方案大都把重点放在如何实现声音和口型的匹配上,往往忽略了视频生成的质量。这会导致一个重要的问题,最终生成的视频不论是在外貌等面部细节,还是说话的风格,跟本人会有明显的差异。PersonaTalk 作为一项创新视频生成技术,构建了一个基于注意力机制的双阶段框架,实现了这两类方案优势的统一。