菜单

Administrator
发布于 2026-05-22 / 3 阅读
0
0

Supertonic:超高速端侧多语言TTS — 99M参数覆盖31种语言,无需GPU

项目介绍

Supertonic 是由 Supertone Inc. 推出的超高速端侧多语言文本转语音(TTS)系统,基于 ONNX Runtime 实现本地推理——无需云端 API,无需 GPU,完全保护用户隐私。项目在 GitHub 上已获得 8,950+ Star,本周暴涨 4,120 Star,v2.0.0 版本于 2026 年初发布。

核心亮点

  • 超低延迟 — 实时合成,足够在不到一秒内将整个网页转为音频
  • 🌍 31 语言覆盖 — 从阿拉伯语到越南语,无需单独的语言适配器
  • 🪶 仅 99M 参数 — 远小于 0.7B-2B 参数的开源 TTS 系统
  • 📱 端侧就绪 — 可在桌面、移动端、浏览器甚至树莓派上运行
  • 🔊 44.1kHz 高质量音频 — 直接输出 16-bit WAV 格式

技术特色

超轻量模型架构

Supertonic 仅 9900 万参数,是主流开源 TTS 模型的十分之一到二十分之一大小。这意味着:

  • 更快的下载速度
  • 更少的冷启动时间
  • 更低的内存占用
  • 可在资源受限设备上运行

31 种语言支持

支持阿拉伯语、保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、印地语、匈牙利语、印尼语、意大利语、日语、韩语、拉脱维亚语、立陶宛语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、土耳其语、乌克兰语、越南语。

不知道文本是什么语言? 传入 lang="na",Supertonic 会自动以语言无关方式处理。

多运行时 SDK

提供 ONNX Runtime 的多种 SDK 示例:
Python、Node.js、浏览器(WebGPU)、Java、C++、C#、Go、Swift、iOS、Rust、Flutter

最新更新

  • 2026.05.20 — Supertonic 3 正式在 Supertone Play 和 Supertone API 中支持
  • 2026.05.18 — Python SDK v1.3.1 添加 supertonic serve 本地 HTTP 服务器,支持原生 /v1/tts 和 OpenAI 兼容的 /v1/audio/speech 端点
  • 2026.05.18 — Voice Builder 支持 Supertonic 3,可创建永久自定义语音配置文件

快速上手

# 安装 Python SDK
pip install supertonic

# 启动本地 TTS 服务器(OpenAI 兼容)
supertonic serve --port 8080

# 或者直接合成
python3 -c "
from supertonic import Supertonic
tts = Supertonic()
audio = tts.synthesize('你好,欢迎使用Supertonic语音合成系统!')
with open('output.wav', 'wb') as f:
    f.write(audio)
"

结合当前技术背景的分析

2026年,AI 语音合成领域正经历三大趋势:

  1. 端侧推理崛起 — 用户对隐私的担忧和云服务成本压力推动了端侧 AI 部署需求
  2. 多语言全球化 — AI 产品的全球化要求 TTS 支持更多语言,且无需为每种语言维护独立模型
  3. 开源模型小型化 — 从 GPT-SoVITS 到 CosyVoice,再到 Supertonic,开源 TTS 正在向更小、更快、更好的方向发展

Supertonic 的 99M 参数+31 语言+ONNX 端侧推理的组合,使其成为边缘设备和隐私敏感场景的首选方案。特别是其 OpenAI 兼容的 API 设计,让开发者可以零代码改造成本迁移现有应用。


更新记录(2026-05-22)

  • 首次上榜 GitHub Trending,本周 +4,120 Star 成为热门
  • 项目获得 8,950 Star,是端侧 TTS 领域的明星项目

评论