LatentSync 开源数字人视频对口型懒人整合包

Posted on 2026年3月7日2026年3月7日 by dsx2016

LatentSync

github地址：https://github.com/bytedance/LatentSync

LatentSync‌ 是开源唇形同步（Lip Sync）框架，基于 ‌Stable Diffusion 的潜在扩散模型‌，实现从音频到高分辨率视频唇部运动的端到端生成。它无需依赖中间运动表示（如 2D 特征点或 3D 人脸模型），直接在潜在空间中建模音频与视觉的跨模态关联，显著提升生成质量与效率。

核心特点

‌端到端架构‌：输入音频，直接输出与之同步的唇部视频帧，简化传统多阶段流程。
‌高分辨率支持‌：支持最高 ‌512×512‌ 分辨率视频生成，1.6 版本已大幅改善模糊问题。
‌低显存需求‌：1.6 版本最低仅需 ‌8GB 显存‌，可在消费级 GPU 上运行。
‌多语言优化‌：特别针对中文语音处理效果进行优化。
‌广泛适用性‌：支持真人视频、动漫角色、虚拟主播等多种应用场景

本文懒人包为1.5版本

点击启动程序.bat,会弹出一个终端

等待终端执行加载，会自动弹出webui网页

选择视频，和选择对应的语音文件，点击生成视频

终端可以看到处理进度生成后右侧有视频结果，可以预览和下载

Tips

点击此处网盘下载

建议显存8GB及以上使用