Helsinki-NLP/open

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

数据集简介
该数据集由赫尔辛基大学自然语言处理团队（Helsinki-NLP）发布，主要基于公开的电影、电视剧字幕文本构建，旨在为机器翻译、跨语言理解等自然语言处理任务提供大规模平行语料。

主要用途
- 训练和评估机器翻译模型（尤其是多语言翻译）
- 跨语言文本对齐与语义相似度研究
- 多语言对话生成或语言模型预训练的数据补充

数据类型/模态
- 模态：文本（平行语料）
- 内容：多语言字幕对（通常包含原文与翻译文本）
- 语言覆盖：涵盖多种语言，具体语言对依赖子集

规模与统计
- 下载量：577次
- 社区反馈：74次点赞
- 更新日期：2024年1月

使用场景
- 学术研究中的多语言NLP实验
- 低资源语言翻译模型开发
- 语言对比分析与文化语境研究

62 次点击 ∙ 0 人收藏

登录后收藏

0 条回复