项目介绍
Supertonic 是由 Supertone Inc. 推出的超高速端侧多语言文本转语音(TTS)系统,基于 ONNX Runtime 实现本地推理——无需云端 API,无需 GPU,完全保护用户隐私。项目在 GitHub 上已获得 8,950+ Star,本周暴涨 4,120 Star,v2.0.0 版本于 2026 年初发布。
核心亮点
- ⚡ 超低延迟 — 实时合成,足够在不到一秒内将整个网页转为音频
- 🌍 31 语言覆盖 — 从阿拉伯语到越南语,无需单独的语言适配器
- 🪶 仅 99M 参数 — 远小于 0.7B-2B 参数的开源 TTS 系统
- 📱 端侧就绪 — 可在桌面、移动端、浏览器甚至树莓派上运行
- 🔊 44.1kHz 高质量音频 — 直接输出 16-bit WAV 格式
技术特色
超轻量模型架构
Supertonic 仅 9900 万参数,是主流开源 TTS 模型的十分之一到二十分之一大小。这意味着:
- 更快的下载速度
- 更少的冷启动时间
- 更低的内存占用
- 可在资源受限设备上运行
31 种语言支持
支持阿拉伯语、保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、印地语、匈牙利语、印尼语、意大利语、日语、韩语、拉脱维亚语、立陶宛语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、土耳其语、乌克兰语、越南语。
不知道文本是什么语言? 传入
lang="na",Supertonic 会自动以语言无关方式处理。
多运行时 SDK
提供 ONNX Runtime 的多种 SDK 示例:
Python、Node.js、浏览器(WebGPU)、Java、C++、C#、Go、Swift、iOS、Rust、Flutter
最新更新
- 2026.05.20 — Supertonic 3 正式在 Supertone Play 和 Supertone API 中支持
- 2026.05.18 — Python SDK v1.3.1 添加
supertonic serve本地 HTTP 服务器,支持原生/v1/tts和 OpenAI 兼容的/v1/audio/speech端点 - 2026.05.18 — Voice Builder 支持 Supertonic 3,可创建永久自定义语音配置文件
快速上手
# 安装 Python SDK
pip install supertonic
# 启动本地 TTS 服务器(OpenAI 兼容)
supertonic serve --port 8080
# 或者直接合成
python3 -c "
from supertonic import Supertonic
tts = Supertonic()
audio = tts.synthesize('你好,欢迎使用Supertonic语音合成系统!')
with open('output.wav', 'wb') as f:
f.write(audio)
"
结合当前技术背景的分析
2026年,AI 语音合成领域正经历三大趋势:
- 端侧推理崛起 — 用户对隐私的担忧和云服务成本压力推动了端侧 AI 部署需求
- 多语言全球化 — AI 产品的全球化要求 TTS 支持更多语言,且无需为每种语言维护独立模型
- 开源模型小型化 — 从 GPT-SoVITS 到 CosyVoice,再到 Supertonic,开源 TTS 正在向更小、更快、更好的方向发展
Supertonic 的 99M 参数+31 语言+ONNX 端侧推理的组合,使其成为边缘设备和隐私敏感场景的首选方案。特别是其 OpenAI 兼容的 API 设计,让开发者可以零代码改造成本迁移现有应用。
更新记录(2026-05-22)
- 首次上榜 GitHub Trending,本周 +4,120 Star 成为热门
- 项目获得 8,950 Star,是端侧 TTS 领域的明星项目