LatentSync
github地址:https://github.com/bytedance/LatentSync
LatentSync 是开源唇形同步(Lip Sync)框架,基于 Stable Diffusion 的潜在扩散模型,实现从音频到高分辨率视频唇部运动的端到端生成。它无需依赖中间运动表示(如 2D 特征点或 3D 人脸模型),直接在潜在空间中建模音频与视觉的跨模态关联,显著提升生成质量与效率。
核心特点
- 端到端架构:输入音频,直接输出与之同步的唇部视频帧,简化传统多阶段流程。
- 高分辨率支持:支持最高 512×512 分辨率视频生成,1.6 版本已大幅改善模糊问题。
- 低显存需求:1.6 版本最低仅需 8GB 显存,可在消费级 GPU 上运行。
- 多语言优化:特别针对中文语音处理效果进行优化。
- 广泛适用性:支持真人视频、动漫角色、虚拟主播等多种应用场景
本文懒人包为1.5版本

点击启动程序.bat,会弹出一个终端

等待终端执行加载,会自动弹出webui网页
选择视频,和选择对应的语音文件,点击生成视频
终端可以看到处理进度生成后右侧有视频结果,可以预览和下载

Tips
点击此处 网盘下载
建议显存8GB及以上使用