首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

LLaVA-Critic-GRPO 数据集简介

数据集概述

这是一个用于视觉语言模型（VLM）强化学习训练的数据集，专门为“批评者”（Critic）模型的训练和GRPO（一种强化学习优化方法）而设计。

主要用途

训练视觉语言模型的“批评者”组件，使其能够评估模型生成响应的质量。
支持基于GRPO（可能指代某种策略梯度优化方法）的强化学习训练流程。
用于提升多模态模型在遵循指令、回答准确性等方面的性能。

数据类型与模态

模态：多模态（图像 + 文本）
数据格式：Parquet
内容：包含图像及相关的文本指令、响应和评估数据。

数据规模

总样本数：40,154 行

适用场景

多模态大模型（如LLaVA）的强化学习微调。
研究视觉语言模型的对齐（Alignment）与优化。
开发或改进用于评估生成式AI输出的“批评者”模型。

数据集地址：https://huggingface.co/datasets/lmms-lab/LLaVA-Critic-GRPO-dataset

67 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor