首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

WaxalNLP 数据集简介

数据集概述

WaxalNLP 是由 Google 发布的一个多模态数据集，主要用于自然语言处理（NLP）相关的研究与应用。

主要用途

支持多模态（音频与文本）的 NLP 研究
可用于语音识别、语音合成、音频-文本对齐等任务
适用于训练和评估跨模态模型

数据类型与模态

模态类型：音频（audio）与文本（text）
数据格式：Parquet 格式
数据规模：包含超过 256 万条数据记录（2,561,573 行）

使用场景

多模态机器学习模型开发
语音与文本的联合建模实验
大规模 NLP 与音频处理基准测试

其他信息

数据集开放访问（非私有）
支持通过多种工具库（如 datasets, dask, polars, mlcroissant）加载使用
在社区中具有较高的关注度（下载量近万次）

数据集地址：https://huggingface.co/datasets/google/WaxalNLP

74 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 31 ms

Developed with Cursor