llm-jp/relaion2B-en-research-safe-japanese-translation

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

数据集简介

这是一个由 llm-jp 发布的大规模研究用数据集，旨在提供经过安全筛选的日语翻译文本，主要面向学术研究用途。

数据集包含多种模态的数据：
* 文本：核心内容，为经过安全处理的日语翻译文本。
* 图像：可能包含与文本相关的图像数据。
* 表格数据：可能以结构化形式存储元信息或对齐数据。

适用于需要大规模、高质量日语语料的场景，例如：
* 日语大语言模型的预训练或指令微调。
* 跨语言信息检索与知识对齐研究。
* 构建安全的、适用于研究的日语数据集。

66 次点击 ∙ 0 人收藏

登录后收藏

0 条回复