image2prompt：分析图像内容并生成详细的反向提示词词

admin · 2026-02-12 02:26:10 · 62 次点击 · 0 条评论

名称： image2prompt
描述： 分析图像并生成用于图像生成的详细提示词。支持人像、风景、产品、动物、插画等类别，可输出结构化或自然语言格式。
主页： https://docs.openclaw.ai/tools/image2prompt
user-invocable: true
元数据： {"openclaw":{"emoji":"🖼️","primaryEnv":"OPENAI_API_KEY","requires":{"anyBins":["openclaw"]}}}

图像转提示词

分析图像并生成详细、可用于复现的高质量 AI 图像生成提示词。

工作流程

步骤 1：类别检测
首先，将图像分类到以下类别之一：
- portrait — 以人物为主体（照片、艺术品、数字艺术）
- landscape — 自然风景、城市景观、建筑、户外环境
- product — 商业产品照片、商品
- animal — 以动物为主体
- illustration — 图表、信息图、UI 线框图、技术图纸
- other — 不属于以上类别的图像

步骤 2：类别专项分析
根据检测到的类别生成详细的提示词。

使用方法

基础分析

# 分析图像（自动检测类别）
openclaw message send --image /path/to/image.jpg "分析此图像并生成用于复现的详细提示词"

指定输出格式

自然语言（默认）：

分析此图像并撰写一段详细、流畅的提示词描述（人像类 600-1000 词，其他类别 400-600 词）。

结构化 JSON：

分析此图像并输出结构化的 JSON 描述，对所有视觉元素进行分类。

维度提取

请求维度高亮，以获取每个视觉方面的标记短语：

使用维度提取分析此图像。为以下方面标记短语：背景、物体、角色、风格、动作、颜色、情绪、光照、构图、主题。

类别专项分析要素

人像分析涵盖：

模型/风格：摄影类型、质量水平、视觉风格
主体：性别、年龄、种族、肤色、体型
面部特征：眼睛、嘴唇、脸型、表情
头发：颜色、长度、发型、分缝
姿势：身体位置、朝向、腿/手位置、视线
服装：类型、颜色、图案、合身度、材质、风格
配饰：珠宝、包、帽子等
环境：地点、地面、背景、氛围
光照：类型、时间、阴影、对比度、色温
相机：角度、高度、镜头类型、景深、透视
技术：真实感、后期处理、分辨率

风景分析涵盖：

地形与水景
天空与大气元素
前景/背景构图
自然光照与氛围
色彩搭配与摄影风格

产品分析涵盖：

产品特征与材质
设计元素与形状
布景与背景
影棚灯光设置
商业摄影风格

动物分析涵盖：

物种识别与斑纹
姿势与行为
表情与性格
栖息地与场景
野生动物/宠物摄影风格

插画分析涵盖：

图表类型（流程图、信息图、UI 等）
视觉元素（图标、形状、连接线）
布局与层级
设计风格（扁平化、等距等）
配色方案与含义

输出示例

自然语言输出（人像）

{
  "prompt": "一张惊艳的、照片级真实感的人像，描绘了一位 20 多岁的年轻女性，拥有白皙如瓷的肌肤和温暖的粉色调。她有着引人注目的祖母绿杏仁形眼睛，睫毛长而黑，饱满的玫瑰色嘴唇勾勒出自信的微妙微笑，椭圆形的脸庞颧骨高耸..."
}

结构化输出（人像）

{
  "structured": {
    "model": "照片级真实感",
    "quality": "超高",
    "style": "电影感自然光摄影",
    "subject": {
      "identity": "年轻美丽的女性",
      "gender": "女性",
      "age": "20 多岁",
      "ethnicity": "欧洲人",
      "skin_tone": "白皙如瓷带粉色调",
      "body_type": "苗条运动型",
      "facial_features": {
        "eyes": "祖母绿色，杏仁形，强烈的凝视",
        "lips": "饱满，玫瑰粉色，微妙的微笑",
        "face_shape": "椭圆形，高颧骨",
        "expression": "自信而宁静"
      },
      "hair": {
        "color": "温暖的蜜糖金",
        "length": "长发",
        "style": "柔和波浪",
        "part": "中分"
      }
    },
    "pose": {
      "position": "站立",
      "body_orientation": "四分之三侧身朝向相机",
      "legs": "重心在右腿，放松站姿",
      "hands": {
        "right_hand": "放在臀部",
        "left_hand": "自然垂在身侧"
      },
      "gaze": "直视相机"
    },
    "clothing": {
      "type": "飘逸长裙",
      "color": "灰玫瑰色",
      "pattern": "纯色",
      "details": "V 领，收腰，丝绸材质",
      "style": "浪漫女性化"
    },
    "accessories": ["精致的金项链", "小圆环耳环"],
    "environment": {
      "location": "户外花园",
      "ground": "鹅卵石小径",
      "background": "盛开的玫瑰，柔和的背景虚化",
      "atmosphere": "梦幻而浪漫"
    },
    "lighting": {
      "type": "自然阳光",
      "time": "黄金时刻",
      "shadow_quality": "柔和漫射阴影",
      "contrast": "中等",
      "color_temperature": "暖色调"
    },
    "camera": {
      "angle": "略低于视线水平",
      "camera_height": "胸部高度",
      "shot_type": "中景",
      "lens": "85mm",
      "depth_of_field": "浅景深",
      "perspective": "轻微压缩，美化效果"
    },
    "mood": "浪漫、自信、空灵",
    "realism": "高度照片级真实感",
    "post_processing": "柔和的色彩分级，微妙的辉光",
    "resolution": "8k"
  }
}

带维度提取的输出

{
  "prompt": "...",
  "dimensions": {
    "backgrounds": ["户外花园", "盛开的玫瑰", "柔和的背景虚化"],
    "objects": ["精致的金项链", "小圆环耳环"],
    "characters": ["年轻美丽的女性", "20 多岁", "欧洲人"],
    "styles": ["照片级真实感", "电影感自然光摄影"],
    "actions": ["站立", "四分之三侧身", "直视相机"],
    "colors": ["灰玫瑰色", "蜜糖金", "祖母绿"],
    "moods": ["浪漫", "自信", "空灵", "梦幻"],
    "lighting": ["黄金时刻", "自然阳光", "柔和漫射阴影"],
    "compositions": ["中景", "85mm", "浅景深"],
    "themes": ["浪漫女性化", "人像摄影"]
  }
}

最佳实践建议

高分辨率图像 能生成更详细的提示词。
清晰、光照良好的图像 能获得更好的类别检测结果。
当需要以编程方式访问单个元素时，请求结构化输出。
在构建提示词数据库或训练数据时，使用维度提取。
如有需要，为自然语言输出指定词数期望。

集成

此技能可与任何具备视觉能力的模型配合使用。为获得最佳效果，建议使用：
- GPT-4 Vision
- Claude 3 (Opus/Sonnet)
- Gemini Pro Vision

技能包地址：https://github.com/openclaw/skills/tree/main/skills/zhang-shubo/image2prompt/SKILL.md

62 次点击 ∙ 0 人收藏

登录后收藏

0 条回复