OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OA0 › 代码 › DataJuicer — 用于 LLM 数据清洗、筛选与配方化处理

DataJuicer — 用于 LLM 数据清洗、筛选与配方化处理

ios · 2026-05-15 11:00:27 · 83 次点击 · 0 条评论

Data-Juicer: 基础模型时代的数据操作系统

多模态｜云原生｜AI 就绪｜大规模

Data-Juicer (DJ) 将原始数据混乱转化为 AI 就绪的智能。它将数据处理视为可组合的基础设施——提供模块化构建块，用于在整个 AI 生命周期中清理、合成和分析数据，释放每一个字节的潜在价值。

无论您是在对大规模预训练语料进行去重、整理智能体交互轨迹，还是准备特定领域的 RAG 索引，DJ 都能从您的笔记本电脑无缝扩展到千节点集群——无需胶水代码。

阿里云 PAI 已将 Data-Juicer 深度集成到其数据处理产品中。请参阅快速提交 DataJuicer 任务。

🚀 快速入门

零安装体验：
- 含教程的 JupyterLab Playground
- 询问 DJ Copilot

安装与运行：

uv pip install py-data-juicer
dj-process --config demos/process_simple/process.yaml

或使用 Python 编写：

from data_juicer.core.data import NestedDataset
from data_juicer.ops.filter import TextLengthFilter
from data_juicer.ops.mapper import WhitespaceNormalizationMapper

ds = NestedDataset.from_dict({
    "text": ["简短", "这条通过了过滤器。", "包含   空格的   文本"]
})
res_ds = ds.process([
    TextLengthFilter(min_len=10),
    WhitespaceNormalizationMapper()
])

for s in res_ds:
    print(s)

✨ 为什么选择 Data-Juicer？

1. 模块化且可扩展的架构

200+ 算子，覆盖文本、图像、音频、视频和多模态数据
配方优先：可重现的 YAML 管道，可像代码一样版本化、共享和分支
可组合：插入单个算子、链接复杂工作流，或编排完整管道
热重载：无需重启管道即可迭代算子

2. 全频谱数据智能

基础模型：预训练、微调、强化学习和评估级数据整理
智能体系统：清理工具轨迹、结构化上下文、去标识化和质量门控
RAG 与分析：提取、归一化、语义分块、去重和数据剖析

3. 生产级性能

规模：在 50 个 Ray 节点（6400 核）上，2 小时内处理 700 亿样本
效率：使用 1280 核，2.8 小时内对 5TB 数据进行去重
优化：自动算子融合（2-10 倍加速）、自适应并行、CUDA 加速、鲁棒性增强
可观测性：内置追踪，用于调试、审计和迭代改进

⭐ 如果 Data-Juicer 为您节省了时间或改进了您的数据工作，请考虑点亮星标。 这有助于更多人发现该项目，并让您及时了解新版本和功能。

📰 新闻

[2026-03-17] 发布 v1.5.1：LaTeX 算子；压缩格式支持；算子鲁棒性修复

* 📄 新增两个面向 LaTeX 的映射算子，扩展了 data-juicer 的文档处理能力，可处理 `.tex` 档案和图形上下文。 * 🗜️ 压缩数据集格式支持：现在可以直接加载 `json[l].gz` 文件，Ray 数据集也获得对读取压缩 JSON 文件的适当支持。 * 📚 新增关于缓存、导出和追踪工作流的文档，帮助用户更好地理解和调试数据处理管道。 * 🤖 data-juicer-agents 完成重大重构和升级：项目架构和 CLI/会话功能得到全面重新设计，以提高可维护性和可扩展性。详情请参见 [date-juicer-agents](https://github.com/datajuicer/data-juicer-agents)。

[2026-02-12] 发布 v1.5.0：分区 Ray 执行器、算子级环境管理及更多具身 AI 算子

- 🚀 *增强的分布式执行框架* -- 引入分区 Ray 执行器和算子级隔离环境，以提高容错性、可扩展性和依赖冲突解决能力。 - 🤖 *扩展的具身 AI 视频处理* -- 新增专门用于相机标定、视频去畸变、手部重建和姿态估计的算子，以加强多视角视频处理。 - 💪🏻 *系统性能与开发者体验优化* -- 启用批量推理、减少内存/日志、重构核心逻辑并更新文档/模板。 - 🐳 *关键错误修复与稳定性改进* -- 解决了重复追踪、参数冲突、首页渲染问题和过时的文档，提升了可靠性。

[2026-02-02] 发布 v1.4.6：Copilot、视频字节 I/O 及 Ray 追踪

- 🤖 *问答 Copilot* — 现已在我们 [文档站点](https://datajuicer.github.io/data-juicer/en/main/index.html) | [钉钉](https://qr.dingtalk.com/action/joingroup?code=v1,k1,N78tgW54U447gJP5aMC95B6qgQhlkVQS4+dp7qQq6MpuRVJIwrSsXmL8oFqU5ajJ&_dt_no_comment=1&origin=11?) | [Discord](https://discord.gg/ngQbB9hEVK) 上线。欢迎询问任何与 Data-Juicer 生态系统相关的问题！ - 查看 🤖 [Data-Juicer Agents](https://github.com/datajuicer/data-juicer-agents/blob/main) | 📃 [可部署代码](https://github.com/datajuicer/data-juicer-agents/blob/main/qa-copilot) | 🎬[更多演示](https://github.com/datajuicer/data-juicer-agents/blob/main/qa-copilot/DEMO.md) 以获取更多详情。 - 🎬 *视频字节 I/O* — 视频管道的直接字节处理 - 🫆 *Ray 模式追踪器* — 在分布式处理中追踪更改的样本 - 🐳 *增强与修复* — 刷新 Docker 镜像、小幅性能提升、GitHub Insights 流量工作流、Ray 兼容性更新以及错误/文档修复。

[2026-01-15] 发布 v1.4.5：20+ 新算子、Ray vLLM 管道及 Sphinx 文档升级

- *具身 AI 算子*：新增/增强了视频字幕（VLM）、视频对象分割（YOLOE+SAM2）、视频深度估计（可视化 + 点云）、人体姿态（MMPose）、图像标记（VLM）、单图像 3D 身体网格重建（SAM 3D Body）的映射算子，以及 *S3 上传/下载*。 - *新管道算子*：将多个算子组合成一个管道；引入了用于 LLM/VLM 推理的 *Ray + vLLM* 管道。 - *文档升级*：迁移到统一的基于 *Sphinx* 的文档构建/部署工作流，并采用独立的主题/架构仓库。 - *增强与修复*：依赖项更新、改进的 Ray 去重和 S3 加载、OpenAI Responses API 支持、追踪器一致性、Docker 基础镜像更新为 CUDA 12.6.3 + Ubuntu 24.04 + Py3.11，以及多项错误修复。

[2025-12-01] 发布 v1.4.4：NeurIPS'25 Spotlight、6 个新的视频/多模态算子及 S3 I/O

- NeurIPS'25 **Spotlight** 表彰 Data-Juicer 2.0 - *仓库拆分*：sandbox/recipes/agents 移至独立仓库 - *S3 I/O* 加入加载器/导出器 - *6 个新的视频和多模态 OP*（字符检测、VGGT、全身姿态、手部重建）+ 文档/Ray/视频 I/O 改进和错误修复

查看所有发布和新闻存档

🔌 用户与生态系统

以下列表侧重于面向开发者的集成和用途，按字母顺序排列。
缺少您的项目/名称？请随时提交 PR 或联系我们。

Data-Juicer 可插入您现有的技术栈，并随社区贡献而演进：

扩展

data-juicer-agents — DJ Copilot 和智能体工作流
data-juicer-hub — 社区配方和最佳实践
data-juicer-sandbox — 带反馈循环的数据-模型协同开发

框架与平台

AgentScope · Apache Arrow · Apache HDFS · Apache Hudi · Apache Iceberg · Apache Paimon · Alibaba PAI · Delta Lake · DiffSynth-Studio · EasyAnimate · Eval-Scope · Huawei Ascend · Hugging Face · LanceDB · LLaMA-Factory · ModelScope · ModelScope Swift · NVIDIA NeMo · Ray · RM-Gallery · Trinity-RFT · Volcano Engine

工业界

阿里巴巴集团、蚂蚁集团、比亚迪汽车、字节跳动、天翼云、京东、NVIDIA、OPPO、小红书、小米、喜马拉雅等。

学术界

中国科学院、南京大学、北京大学、中国人民大学、清华大学、中国科学院大学、浙江大学等。

贡献与社区

我们相信共同构建。无论是修正错别字、打造新算子，还是分享突破性配方，每一次贡献都在塑造数据处理的未来。

我们欢迎各级贡献：
- 好的入门问题 — 添加算子、改进文档、报告问题或修复错误
- 开发者指南 — 优化引擎、添加功能或增强核心基础设施
- DJ-Hub — 分享知识：配方、论文和最佳实践
- 联系我们：Slack · 钉钉 · Discord

Discord	钉钉

Data-Juicer 的成功离不开用户和社区的支持：
- 发起单位：阿里通义实验室
- 共同开发单位：阿里云 PAI、Anyscale（Ray 团队）、中山大学、NVIDIA（NeMo 团队）以及全球贡献者
- 灵感来源：Apache Arrow、Ray、Hugging Face Datasets、BLOOM、RedPajama-Data 等

文档

详细文档请参见此处。

快速链接：
- 算子动物园 — 浏览 200+ 算子和示例
- 智能体交互质量与不良案例 — 仓库内配方、JSONL 管道、HTML 报告（demos/agent/；算子如 agent_bad_case_signal_mapper 也列在 docs/Operators.md 中）
- data-juicer-hub — 社区驱动的配方和最佳实践
- 开发者指南 — 构建自己的代码并贡献给 DJ
- data-juicer-cookbook — 资源存档
- awesome_llm_data — 数据-模型协同开发的“极棒列表”

📄 许可与署名

Data-Juicer 根据 Apache 许可证 2.0 发布。
我们感激署名：请使用我们的徽章或文字“本项目使用了 Data-Juicer：https://github.com/datajuicer”。

📖 引用

如果您在工作中发现 Data-Juicer 很有用，请引用：

@inproceedings{djv1,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Chen, Daoyuan and Huang, Yilun and Ma, Zhijian and Chen, Hesen and Pan, Xuchen and Ge, Ce and Gao, Dawei and Xie, Yuexiang and Liu, Zhaoyang and Gao, Jinyang and Li, Yaliang and Ding, Bolin and Zhou, Jingren},
  booktitle={SIGMOD},
  year={2024}
}

@article{djv2,
  title={Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models},
  author={Chen, Daoyuan and Huang, Yilun and Pan, Xuchen and Jiang, Nana and Wang, Haibin and Zhang, Yilei and Ge, Ce and Chen, Yushuo and Zhang, Wenhao and Ma, Zhijian and Huang, Jun and Lin, Wei and Li, Yaliang and Ding, Bolin and Zhou, Jingren},
  journal={NeurIPS},
  year={2025}
}

更多出版物（点击展开）

- (ICML'25 Spotlight) [Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development](https://arxiv.org/abs/2407.11784) - (CVPR'25) [ImgDiff: Contrastive Data Synthesis for Vision Large Language Models](https://arxiv.org/abs/2408.04594) - (TPAMI'25) [The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective](https://arxiv.org/abs/2407.08583) - (NeurIPS'25) [Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data](https://arxiv.org/abs/2502.04380) - (NeurIPS'25) [MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?](https://arxiv.org/abs/2503.09499) - (Benchmark Data) [HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data](https://arxiv.org/abs/2412.17574) - (Benchmark Data) [DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?](https://www.arxiv.org/abs/2505.16915) - (Data Scaling) [BiMix: A Bivariate Data Mixing Law for Language Model Pretraining](https://arxiv.org/abs/2405.14908)

项目地址：https://github.com/modelscope/data-juicer

83 次点击 ∙ 0 人收藏

登录后收藏

0 条回复