Qwen3-ASR

github地址：https://github.com/QwenLM/Qwen3-ASR

📦 Qwen3-ASR：新一代开源语音识别系统

Qwen3-ASR 是阿里通义团队推出的开源语音识别（ASR）模型及工具链，旨在将语音高效转化为文本（Speech-to-Text）。

👉 一句话定位：Whisper 的“现代化替代方案”，更现代、支持流式处理，且具备工程级落地能力。

属于 Qwen 体系中的专用语音模块，专注于以下三大任务：

一套模型，两种模式，灵活应对不同需求。

针对不同性能需求提供差异化选择：

模型版本	参数量	特点描述	适用场景
0.6B	轻量级	⚡ 高并发、极速响应	实时系统部署、边缘设备
1.7B	标准级	🎯 SOTA 级精度	对准确率要求极高的场景

💡 注：0.6B 版本在保持高精度的同时，极大降低了计算资源消耗。

在复杂现实场景中表现优异，显著优于传统模型：

配套模型：Qwen3-ForcedAligner

专为实时系统优化，具备极低的延迟和极高的吞吐：

GitHub 仓库不仅提供模型，更是一个完整的推理框架 + Demo UI生态：

特性	Whisper (老一代)	WhisperX (Whisper + 对齐增强)	Qwen3-ASR (新一代)
架构定位	基础 ASR 模型	基础模型 + 后处理对齐	端到端原生支持
流式能力	❌ 较弱/需额外配置	⚠️ 依赖外部逻辑	✅ 原生支持 (边说边出)
延迟性能	🐢 较高	🐢 中等	🚀 极低 (92ms TTFT)
多语言覆盖	广泛	广泛	🌏 52+ 语种/方言

🧠 核心总结： Qwen3-ASR 是一个支持实时流式、具备强多语言鲁棒性且工程可落地的开源语音识别系统，代表了 2026 年的主流技术方向。

点击start.bat

等待终端启动

打开地址http://127.0.0.1:7867/

上传音频，点击转录

这个版本为Qwen3-ASR 0.6B版本，网上找到懒人包
1.7B的版本更加精准，但是显存占用较大，目前0.6B测试显存大约6GB占用

后续酌情补充1.7B的Qwen3-ASR版本

特别说明，Qwen3-ASR支持流式处理，但本文懒人包暂未接入，后续再看

1,624字