OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  YOLO-World — 开放词汇目标检测模型,适合多模态视觉场景

YOLO-World — 开放词汇目标检测模型,适合多模态视觉场景

 
  compass ·  2026-03-29 11:00:20 · 8 次点击  · 0 条评论  

程天恒2,3,*, 宋林1,📧,*, 葛艺潇1,🌟,2, 刘文予3, 王兴刚3,📧, 单瀛1,2
\* 同等贡献 🌟 项目负责人 📧 通讯作者 1 腾讯 AI Lab, 2 ARC Lab, Tencent PCG 3 华中科技大学
[![arxiv paper](https://img.shields.io/badge/项目主页-green)](https://wondervictor.github.io/) [![arxiv paper](https://img.shields.io/badge/arXiv-论文-red)](https://arxiv.org/abs/2401.17270) 在 Colab 中打开 [![demo](https://img.shields.io/badge/🤗HugginngFace-在线演示-orange)](https://huggingface.co/spaces/stevengrove/YOLO-World) [![Replicate](https://replicate.com/zsxkib/yolo-world/badge)](https://replicate.com/zsxkib/yolo-world) [![hfpaper](https://img.shields.io/badge/🤗HugginngFace-论文-yellow)](https://huggingface.co/papers/2401.17270) [![license](https://img.shields.io/badge/许可证-GPLv3.0-blue)](LICENSE) [![yoloworldseg](https://img.shields.io/badge/YOLOWorldxEfficientSAM-🤗在线演示-orange)](https://huggingface.co/spaces/SkalskiP/YOLO-World) [![yologuide](https://img.shields.io/badge/📖Notebook-roboflow-purple)](https://supervision.roboflow.com/develop/notebooks/zero-shot-object-detection-with-yolo-world) [![deploy](https://media.roboflow.com/deploy.svg)](https://inference.roboflow.com/foundation/yolo_world/)

注意

YOLO-World 仍在积极开发中!

我们建议大家在 issue 中使用英语进行交流,这有助于来自世界各地的开发者共同讨论、分享经验和解答问题。

关于商业许可和其他相关咨询,请随时联系 yixiaoge@tencent.com

🔥 更新日志

[2025-2-8]:我们发布了新的 YOLO-World-V2.1,包含新的预训练权重和图像提示的训练代码。详情请见更新博客 YOLO-World-V2.1-Blog。\
[2024-11-5]:我们更新了 YOLO-World-Image,你可以在 HuggingFace 上尝试 YOLO-World-Image (预览版)。这是一个预览版本,我们仍在改进中!关于训练和小样本推理的详细文档即将发布。\
[2024-7-8]:YOLO-World 现已集成到 ComfyUI 中!快来尝试将 YOLO-World 添加到你的工作流中吧!你可以访问 StevenGrove/ComfyUI-YOLOWorld!\
[2024-5-18]:YOLO-World 模型已 集成到 FiftyOne 计算机视觉工具包 中,可在图像和视频数据集上进行简化的开放词汇推理。\
[2024-5-16]:大家好!好久不见!本次更新包含 (1) 微调指南 和 (2) TFLite 导出 与 INT8 量化。\
[2024-5-9]:本次更新包含了真正的 重参数化 🪄,它更适合在自定义数据集上进行微调,并提高了训练/推理效率 🚀!\
[2024-4-28]:好久不见!本次更新包含错误修复和改进:(1) ONNX 演示;(2) 图像演示(支持张量输入);(3) 新的预训练模型;(4) 图像提示;(5) 用于微调/部署的简化版本;(6) 安装指南(包含 requirements.txt)。\
[2024-3-28]:我们提供了:(1) 更多高分辨率预训练模型(例如 S, M, X)(#142);(2) 使用 CLIP-Large 文本编码器的预训练模型。最重要的是,我们初步修复了 不使用 mask-refine 的微调 问题,并探索了新的微调设置 (#160,#76)。此外,使用 mask-refine 微调 YOLO-World 也获得了显著改进,更多细节请查看 configs/finetune_coco。\
[2024-3-16]:我们修复了关于演示的 bug (#110,#94,#129, #125),并发布了 带嵌入的 YOLO-World,它支持提示调优、文本提示和图像提示。\
[2024-3-3]:我们添加了 高分辨率 YOLO-World,支持 1280x1280 分辨率,对小物体具有更高的准确性和更好的性能!\
[2024-2-29]:我们发布了最新版本的 YOLO-World-v2,具有更高的准确性和更快的速度!我们希望社区能加入我们一起改进 YOLO-World!\
[2024-2-28]:激动地宣布 YOLO-World 已被 CVPR 2024 接收!我们将继续让 YOLO-World 更快、更强,并使其对所有人更好用。\
[2024-2-22]:我们衷心感谢 RoboFlow@Skalskip92 制作的关于 YOLO-World 的 视频指南,做得好!\
[2024-2-18]:我们感谢 @Skalskip92 通过连接 YOLO-World 和 EfficientSAM 开发了出色的分割演示。你现在可以在 🤗 HuggingFace Spaces 上尝试。\
[2024-2-17]:YOLO-World 的最大模型 X 已发布,实现了更好的零样本性能!\
[2024-2-17]:我们现在发布了 YOLO-World-Seg 的代码和模型!YOLO-World 现在支持开放词汇/零样本目标分割!\
[2024-2-15]:使用 CC3M-Lite 预训练的 YOLO-World-L 已发布!\
[2024-2-14]:我们提供了 image_demo 用于在图像或目录上进行推理。\
[2024-2-10]:我们提供了在 COCO 数据集或自定义数据集上微调 YOLO-World 的 微调数据 细节!\
[2024-2-3]:我们现在在仓库中支持 Gradio 演示,你可以在自己的设备上构建 YOLO-World 演示!\
[2024-2-1]:我们已经发布了 YOLO-World 的代码和权重!\
[2024-2-1]:我们在 HuggingFace 🤗 上部署了 YOLO-World 演示,你现在就可以试试!\
[2024-1-31]:我们激动地推出 YOLO-World,一个尖端的实时开放词汇目标检测器。

待办事项

YOLO-World 正在积极开发中,请保持关注 ☕️!
如果你有建议 📃 或想法 💡,我们非常希望您在 Roadmap 中提出来 ❤️!

常见问题解答 (FAQ)

我们在 GitHub 的讨论区中建立了关于 YOLO-World 的常见问答。我们希望每个人都能在此提出使用中的问题或解决方案,同时也希望大家能从中快速找到解决方案。

亮点与介绍

本仓库包含 YOLO-World 的 PyTorch 实现、预训练权重以及预训练/微调代码。

  • YOLO-World 在大规模数据集上进行预训练,包括检测、定位和图文数据集。
  • YOLO-World 是下一代 YOLO 检测器,具有强大的开放词汇检测能力和定位能力。
  • YOLO-World 提出了一种 提示后检测 范式,用于高效的用户词汇推理,它将词汇嵌入作为参数重参数化到模型中,实现了卓越的推理速度。你可以在我们的 在线演示 中尝试导出你自己的检测模型,无需额外训练或微调!

预训练模型的零样本评估结果

我们以零样本方式评估了所有 YOLO-World-V2.1 模型在 LVIS、LVIS-mini 和 COCO 上的性能,并与之前的版本进行了比较(改进之处在上标中标注)。

模型分辨率LVIS APLVIS-miniCOCO
APAPrAPcAPfAPAPrAPcAPfAPAP50AP75
YOLO-World-S64018.5+1.212.615.824.123.6+0.916.421.526.636.651.039.7
YOLO-World-S128019.7+0.913.516.326.325.5+1.419.122.629.338.254.241.6
YOLO-World-M64024.1+0.616.921.130.630.6+0.619.729.034.143.058.646.7
YOLO-World-M128026.0+0.719.922.532.732.7+1.124.430.236.443.860.347.7
YOLO-World-L64026.8+0.719.823.633.433.8+0.924.532.336.844.960.448.9
YOLO-World-L80028.322.524.435.135.227.832.638.847.463.351.8
YOLO-World-L128028.7+1.122.924.935.435.5+1.224.434.038.846.062.550.0
YOLO-World-X64028.6+0.222.025.634.935.8+0.431.033.738.546.762.551.0
YOLO-World-X-1280 即将发布。

模型卡片

8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 19 ms
Developed with Cursor