YOLO-World — 开放词汇目标检测模型，适合多模态视觉场景

compass · 2026-03-29 11:00:20 · 70 次点击 · 0 条评论

程天恒^2,3,*, 宋林^1,📧,*, 葛艺潇^1,🌟,2, 刘文予³, 王兴刚^3,📧, 单瀛^1,2
\* 同等贡献 🌟 项目负责人 📧 通讯作者 ¹ 腾讯 AI Lab, ² ARC Lab, Tencent PCG ³ 华中科技大学

[![arxiv paper](https://img.shields.io/badge/项目主页-green)](https://wondervictor.github.io/) [![arxiv paper](https://img.shields.io/badge/arXiv-论文-red)](https://arxiv.org/abs/2401.17270)

[![demo](https://img.shields.io/badge/🤗HugginngFace-在线演示-orange)](https://huggingface.co/spaces/stevengrove/YOLO-World) [![Replicate](https://replicate.com/zsxkib/yolo-world/badge)](https://replicate.com/zsxkib/yolo-world) [![hfpaper](https://img.shields.io/badge/🤗HugginngFace-论文-yellow)](https://huggingface.co/papers/2401.17270) [![license](https://img.shields.io/badge/许可证-GPLv3.0-blue)](LICENSE) [![yoloworldseg](https://img.shields.io/badge/YOLOWorldxEfficientSAM-🤗在线演示-orange)](https://huggingface.co/spaces/SkalskiP/YOLO-World) [![yologuide](https://img.shields.io/badge/📖Notebook-roboflow-purple)](https://supervision.roboflow.com/develop/notebooks/zero-shot-object-detection-with-yolo-world) [![deploy](https://media.roboflow.com/deploy.svg)](https://inference.roboflow.com/foundation/yolo_world/)

注意

YOLO-World 仍在积极开发中！

我们建议大家在 issue 中使用英语进行交流，这有助于来自世界各地的开发者共同讨论、分享经验和解答问题。

关于商业许可和其他相关咨询，请随时联系 yixiaoge@tencent.com。

🔥 更新日志

[2025-2-8]：我们发布了新的 YOLO-World-V2.1，包含新的预训练权重和图像提示的训练代码。详情请见更新博客 YOLO-World-V2.1-Blog。\
[2024-11-5]：我们更新了 YOLO-World-Image，你可以在 HuggingFace 上尝试 YOLO-World-Image (预览版)。这是一个预览版本，我们仍在改进中！关于训练和小样本推理的详细文档即将发布。\
[2024-7-8]：YOLO-World 现已集成到 ComfyUI 中！快来尝试将 YOLO-World 添加到你的工作流中吧！你可以访问 StevenGrove/ComfyUI-YOLOWorld！\
[2024-5-18]：YOLO-World 模型已集成到 FiftyOne 计算机视觉工具包中，可在图像和视频数据集上进行简化的开放词汇推理。\
[2024-5-16]：大家好！好久不见！本次更新包含 (1) 微调指南和 (2) TFLite 导出与 INT8 量化。\
[2024-5-9]：本次更新包含了真正的 重参数化 🪄，它更适合在自定义数据集上进行微调，并提高了训练/推理效率 🚀！\
[2024-4-28]：好久不见！本次更新包含错误修复和改进：(1) ONNX 演示；(2) 图像演示（支持张量输入）；(3) 新的预训练模型；(4) 图像提示；(5) 用于微调/部署的简化版本；(6) 安装指南（包含 requirements.txt）。\
[2024-3-28]：我们提供了：(1) 更多高分辨率预训练模型（例如 S, M, X）(#142)；(2) 使用 CLIP-Large 文本编码器的预训练模型。最重要的是，我们初步修复了 不使用 mask-refine 的微调 问题，并探索了新的微调设置 (#160,#76)。此外，使用 mask-refine 微调 YOLO-World 也获得了显著改进，更多细节请查看 configs/finetune_coco。\
[2024-3-16]：我们修复了关于演示的 bug (#110,#94,#129, #125)，并发布了 带嵌入的 YOLO-World，它支持提示调优、文本提示和图像提示。\
[2024-3-3]：我们添加了 高分辨率 YOLO-World，支持 1280x1280 分辨率，对小物体具有更高的准确性和更好的性能！\
[2024-2-29]：我们发布了最新版本的 YOLO-World-v2，具有更高的准确性和更快的速度！我们希望社区能加入我们一起改进 YOLO-World！\
[2024-2-28]：激动地宣布 YOLO-World 已被 CVPR 2024 接收！我们将继续让 YOLO-World 更快、更强，并使其对所有人更好用。\
[2024-2-22]：我们衷心感谢 RoboFlow 和 @Skalskip92 制作的关于 YOLO-World 的 视频指南，做得好！\
[2024-2-18]：我们感谢 @Skalskip92 通过连接 YOLO-World 和 EfficientSAM 开发了出色的分割演示。你现在可以在 🤗 HuggingFace Spaces 上尝试。\
[2024-2-17]：YOLO-World 的最大模型 X 已发布，实现了更好的零样本性能！\
[2024-2-17]：我们现在发布了 YOLO-World-Seg 的代码和模型！YOLO-World 现在支持开放词汇/零样本目标分割！\
[2024-2-15]：使用 CC3M-Lite 预训练的 YOLO-World-L 已发布！\
[2024-2-14]：我们提供了 image_demo 用于在图像或目录上进行推理。\
[2024-2-10]：我们提供了在 COCO 数据集或自定义数据集上微调 YOLO-World 的微调和数据细节！\
[2024-2-3]：我们现在在仓库中支持 Gradio 演示，你可以在自己的设备上构建 YOLO-World 演示！\
[2024-2-1]：我们已经发布了 YOLO-World 的代码和权重！\
[2024-2-1]：我们在 HuggingFace 🤗 上部署了 YOLO-World 演示，你现在就可以试试！\
[2024-1-31]：我们激动地推出 YOLO-World，一个尖端的实时开放词汇目标检测器。

待办事项

YOLO-World 正在积极开发中，请保持关注 ☕️！
如果你有建议 📃 或想法 💡，我们非常希望您在 Roadmap 中提出来 ❤️！

常见问题解答 (FAQ)

我们在 GitHub 的讨论区中建立了关于 YOLO-World 的常见问答。我们希望每个人都能在此提出使用中的问题或解决方案，同时也希望大家能从中快速找到解决方案。

亮点与介绍

本仓库包含 YOLO-World 的 PyTorch 实现、预训练权重以及预训练/微调代码。

YOLO-World 在大规模数据集上进行预训练，包括检测、定位和图文数据集。
YOLO-World 是下一代 YOLO 检测器，具有强大的开放词汇检测能力和定位能力。
YOLO-World 提出了一种 提示后检测 范式，用于高效的用户词汇推理，它将词汇嵌入作为参数重参数化到模型中，实现了卓越的推理速度。你可以在我们的在线演示中尝试导出你自己的检测模型，无需额外训练或微调！

预训练模型的零样本评估结果

我们以零样本方式评估了所有 YOLO-World-V2.1 模型在 LVIS、LVIS-mini 和 COCO 上的性能，并与之前的版本进行了比较（改进之处在上标中标注）。

模型	分辨率	LVIS AP				LVIS-mini				COCO
模型	分辨率	AP	AP_r	AP_c	AP_f	AP	AP_r	AP_c	AP_f	AP	AP₅₀	AP₇₅
YOLO-World-S	640	18.5^+1.2	12.6	15.8	24.1	23.6^+0.9	16.4	21.5	26.6	36.6	51.0	39.7
YOLO-World-S	1280	19.7^+0.9	13.5	16.3	26.3	25.5^+1.4	19.1	22.6	29.3	38.2	54.2	41.6
YOLO-World-M	640	24.1^+0.6	16.9	21.1	30.6	30.6^+0.6	19.7	29.0	34.1	43.0	58.6	46.7
YOLO-World-M	1280	26.0^+0.7	19.9	22.5	32.7	32.7^+1.1	24.4	30.2	36.4	43.8	60.3	47.7
YOLO-World-L	640	26.8^+0.7	19.8	23.6	33.4	33.8^+0.9	24.5	32.3	36.8	44.9	60.4	48.9
YOLO-World-L	800	28.3	22.5	24.4	35.1	35.2	27.8	32.6	38.8	47.4	63.3	51.8
YOLO-World-L	1280	28.7^+1.1	22.9	24.9	35.4	35.5^+1.2	24.4	34.0	38.8	46.0	62.5	50.0
YOLO-World-X	640	28.6^+0.2	22.0	25.6	34.9	35.8^+0.4	31.0	33.7	38.5	46.7	62.5	51.0
YOLO-World-X-1280 即将发布。

模型卡片

项目地址：https://github.com/AILab-CVC/YOLO-World

70 次点击 ∙ 0 人收藏

登录后收藏

0 条回复