| 注册会员 | 1032 |
| 主题 | 361 |
| 模型 | 2962 |
| 技能包 | 6701 |
| 数据集 | 1026 |
| 论文 | 236 |
| 开源项目 | 319 |
对通过无服务器 API 提供的文字转语音(TTS)模型进行质量与性能评测。当客户仅按使用量付费、而非固定费率时,我们视该端点为无服务器。
性能评测与语音竞技场(Speech Arena)均侧重终端用户使用无服务器 API 的体验,重点关注在本地收到音频文件的时间。若 API 返回 URL 而非音频字节,响应时间包含下载时间;采样率在厂商 API 支持时统一为 22.05 kHz。
每个模型测试多个音色,以保证模型间比较具有代表性和公平性。音色特征(口音、性别、风格)通常属于模型可生成的语音维度,而非模型本身差异。我们为每个模型选取 2 种音色×(男/女)×(美式/英式)共 8 种组合;若某性别或口音不可用则从评测中排除该组合。
音色按厂商界面与文档中的 prominence 选取,排除非中性音色(如洛杉矶腔、深南方口音)。模型创建方可请求在可选音色较多时使用指定音色。开源模型通常不提供音色,我们使用专业配音演员的授权音频作为源文件生成语音。
各模型具体使用的音色列表见 Artificial Analysis 官网文字转语音方法论页。
我们旨在覆盖主流且表现优异的 TTS 模型与厂商,采用「行业影响力」与竞争表现作为纳入依据,并持续完善标准。建议新增模型或厂商可通过联系页反馈。
评测严格保持独立与客观,不因上榜或有利结果从任何厂商处获得报酬。