这是一个由 llm-jp 发布的大规模研究用数据集,旨在提供经过安全筛选的日语翻译文本,主要面向学术研究用途。
数据集包含多种模态的数据: * 文本:核心内容,为经过安全处理的日语翻译文本。 * 图像:可能包含与文本相关的图像数据。 * 表格数据:可能以结构化形式存储元信息或对齐数据。
适用于需要大规模、高质量日语语料的场景,例如: * 日语大语言模型的预训练或指令微调。 * 跨语言信息检索与知识对齐研究。 * 构建安全的、适用于研究的日语数据集。