OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
社区运行状况
注册会员 1032
主题 361
模型 2962
技能包 6701
数据集 1026
论文 236
开源项目 319

文字转语音评测方法论

范围与背景

对通过无服务器 API 提供的文字转语音(TTS)模型进行质量与性能评测。当客户仅按使用量付费、而非固定费率时,我们视该端点为无服务器。

性能评测与语音竞技场(Speech Arena)均侧重终端用户使用无服务器 API 的体验,重点关注在本地收到音频文件的时间。若 API 返回 URL 而非音频字节,响应时间包含下载时间;采样率在厂商 API 支持时统一为 22.05 kHz。

关键指标

  • 质量 ELO:由 Artificial Analysis 文字转语音竞技场(Text to Speech Arena)用户投票得出的相对 ELO 分数,计算方式与 LMSys Chatbot Arena 类似。票数不足的模型可能暂不显示。
  • 每百万字符价格:若厂商未直接提供「每百万字符」报价,则按以下方式估算:按推理时间计费的(如 Replicate、fal.ai)基于约 25 段、每段约 500 字符的文本的推理时间估算;仅提供订阅的(如 ElevenLabs、Cartesia、LMNT)选取最接近每月 $300 的档位并假设 80% 字符用量,例如 $300 含 100 万字符则按 80 万字符折算为每百万字符 $375。报价不包含临时折扣。
  • 生成时间:过去 14 天测量的中位数——生成约 500 字符的单段音频所需时间。若 API 返回 URL 则含下载时间;批大小为 1。每天随机时间运行 4 次评测,每次为每个模型随机选一个音色、使用约 500 字符的唯一文本。

模型音色

每个模型测试多个音色,以保证模型间比较具有代表性和公平性。音色特征(口音、性别、风格)通常属于模型可生成的语音维度,而非模型本身差异。我们为每个模型选取 2 种音色×(男/女)×(美式/英式)共 8 种组合;若某性别或口音不可用则从评测中排除该组合。

音色按厂商界面与文档中的 prominence 选取,排除非中性音色(如洛杉矶腔、深南方口音)。模型创建方可请求在可选音色较多时使用指定音色。开源模型通常不提供音色,我们使用专业配音演员的授权音频作为源文件生成语音。

各模型具体使用的音色列表见 Artificial Analysis 官网文字转语音方法论页。

模型与厂商纳入标准

我们旨在覆盖主流且表现优异的 TTS 模型与厂商,采用「行业影响力」与竞争表现作为纳入依据,并持续完善标准。建议新增模型或厂商可通过联系页反馈。

独立性声明

评测严格保持独立与客观,不因上榜或有利结果从任何厂商处获得报酬。

关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 3 ms
Developed with Cursor