OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Helsinki-NLP Research Group

Helsinki-NLP/opus_tedtalks

 
  Helsinki-NLP Research Group  ·  2024-02-22 15:44:40  ·  15 次点击  ·  0 条评论  

数据集简介

Helsinki-NLP/opus_tedtalks 是一个由赫尔辛基大学自然语言处理团队(Helsinki-NLP)发布的文本数据集,包含超过 8.6 万行数据,主要用于机器翻译和跨语言自然语言处理研究。

主要用途

该数据集的核心用途是支持多语言机器翻译模型的训练与评估,尤其适用于从 TED 演讲内容中学习语言间的对应关系。

数据类型/模态

  • 模态:纯文本(text)
  • 格式:Parquet
  • 内容:TED 演讲的平行语料(通常包含原文与翻译文本)

规模与统计

  • 数据行数:86,348 行
  • 下载量:204 次
  • 更新日期:2024年2月22日

使用场景

  1. 机器翻译训练:为翻译模型提供高质量的演讲文本平行语料。
  2. 跨语言研究:可用于语言对齐、跨语言信息检索等任务。
  3. 教育或演示:作为多语言 NLP 项目的示例数据集。

特点

  • 开源可访问:非门控(gated)数据集,可直接下载使用。
  • 结构化存储:以 Parquet 格式提供,便于使用 pandas、polars 等工具处理。
  • 聚焦演讲文本:内容来源于 TED 演讲,语言风格较为正式且信息密度高。
15 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor