google/fleurs

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

FLEURS（Few-shot Learning Evaluation of Universal Representations of Speech）是由 Google 发布的一个多语言语音识别与翻译数据集。

主要用途

用于评估和开发多语言语音识别（ASR）和语音翻译（ST）模型，特别关注小样本学习场景。

数据类型/模态

模态：音频（语音）、文本
内容：覆盖多种语言的朗读语音片段及其对应的文本转录和翻译。

数据特性

多语言覆盖：数据集包含全球数十种语言的语音数据，支持跨语言研究。
平行语料：提供语音到文本（ASR）以及语音到翻译文本（ST）的平行数据，便于进行多任务学习与评估。
基准测试集：常被用作评估多语言语音模型性能的标准基准数据集之一。
开源可访问：数据集公开可用，非受限（gated: false），便于学术和工业界的研究人员使用。

使用场景

训练和评估多语言自动语音识别（ASR）系统。
训练和评估语音到文本翻译（ST）系统。
研究语音表示学习、小样本/零样本跨语言迁移学习。
作为多模态（语音-文本）理解任务的基准数据。

数据集地址：https://huggingface.co/datasets/google/fleurs

78 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 38 ms

Developed with Cursor