OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  LMMs-Lab

lmms-lab/LLaVA-Critic-GRPO-dataset

 
  LMMs-Lab  ·  2025-06-24 21:34:47  ·  22 次点击  ·  0 条评论  

LLaVA-Critic-GRPO 数据集简介

数据集概述

这是一个用于视觉语言模型(VLM)强化学习训练的数据集,专门为“批评者”(Critic)模型的训练和GRPO(一种强化学习优化方法)而设计。

主要用途

  • 训练视觉语言模型的“批评者”组件,使其能够评估模型生成响应的质量。
  • 支持基于GRPO(可能指代某种策略梯度优化方法)的强化学习训练流程。
  • 用于提升多模态模型在遵循指令、回答准确性等方面的性能。

数据类型与模态

  • 模态:多模态(图像 + 文本)
  • 数据格式:Parquet
  • 内容:包含图像及相关的文本指令、响应和评估数据。

数据规模

  • 总样本数:40,154 行

适用场景

  • 多模态大模型(如LLaVA)的强化学习微调。
  • 研究视觉语言模型的对齐(Alignment)与优化。
  • 开发或改进用于评估生成式AI输出的“批评者”模型。
22 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 323 ms
Developed with Cursor