OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

社区运行状况

社区天梯榜模型智能体技能包开源论文文档

排名时间线各厂商旗舰大模型厂商 LiveBench

文字转语音评测方法论

范围与背景

对通过无服务器 API 提供的文字转语音（TTS）模型进行质量与性能评测。当客户仅按使用量付费、而非固定费率时，我们视该端点为无服务器。

性能评测与语音竞技场（Speech Arena）均侧重终端用户使用无服务器 API 的体验，重点关注在本地收到音频文件的时间。若 API 返回 URL 而非音频字节，响应时间包含下载时间；采样率在厂商 API 支持时统一为 22.05 kHz。

质量 ELO：由 Artificial Analysis 文字转语音竞技场（Text to Speech Arena）用户投票得出的相对 ELO 分数，计算方式与 LMSys Chatbot Arena 类似。票数不足的模型可能暂不显示。
每百万字符价格：若厂商未直接提供「每百万字符」报价，则按以下方式估算：按推理时间计费的（如 Replicate、fal.ai）基于约 25 段、每段约 500 字符的文本的推理时间估算；仅提供订阅的（如 ElevenLabs、Cartesia、LMNT）选取最接近每月 $300 的档位并假设 80% 字符用量，例如 $300 含 100 万字符则按 80 万字符折算为每百万字符 $375。报价不包含临时折扣。
生成时间：过去 14 天测量的中位数——生成约 500 字符的单段音频所需时间。若 API 返回 URL 则含下载时间；批大小为 1。每天随机时间运行 4 次评测，每次为每个模型随机选一个音色、使用约 500 字符的唯一文本。

每个模型测试多个音色，以保证模型间比较具有代表性和公平性。音色特征（口音、性别、风格）通常属于模型可生成的语音维度，而非模型本身差异。我们为每个模型选取 2 种音色×（男/女）×（美式/英式）共 8 种组合；若某性别或口音不可用则从评测中排除该组合。

音色按厂商界面与文档中的 prominence 选取，排除非中性音色（如洛杉矶腔、深南方口音）。模型创建方可请求在可选音色较多时使用指定音色。开源模型通常不提供音色，我们使用专业配音演员的授权音频作为源文件生成语音。

各模型具体使用的音色列表见 Artificial Analysis 官网文字转语音方法论页。

我们旨在覆盖主流且表现优异的 TTS 模型与厂商，采用「行业影响力」与竞争表现作为纳入依据，并持续完善标准。建议新增模型或厂商可通过联系页反馈。

评测严格保持独立与客观，不因上榜或有利结果从任何厂商处获得报酬。