OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2306.14795

MotionGPT:统一文本、动作与多模态控制的人体运动生成模型

 
  discovery ·  2026-04-15 11:01:29 · 12 次点击  · 0 条评论  

MotionGPT: Human Motion as a Foreign Language

作者: Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen

提交/修订日期: 2023年6月26日提交,2023年7月20日修订

摘要:
尽管预训练大语言模型取得了进展,但构建一个统一处理语言和其他多模态数据(如人体运动)的模型,至今仍具挑战性且鲜有探索。幸运的是,人体运动表现出与人类语言相似的语义耦合性,常被视为一种身体语言。通过将语言数据与大规模运动模型融合,能够增强运动相关任务性能的运动-语言预训练变得可行。基于这一见解,我们提出了MotionGPT,一个统一、通用且用户友好的运动-语言模型,用于处理多种与运动相关的任务。具体而言,我们采用离散向量量化方法处理人体运动,将3D运动转换为运动词元,类似于生成单词词元的过程。基于这个“运动词汇表”,我们以统一的方式对运动和文本进行语言建模,将人体运动视为一种特定的语言。此外,受提示学习启发,我们使用混合的运动-语言数据对MotionGPT进行预训练,并在基于提示的问答任务上进行微调。大量实验表明,MotionGPT在多个运动任务上达到了最先进的性能,包括文本驱动运动生成、运动描述、运动预测和运动插值。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)
- 图形学 (cs.GR)

项目页面: https://github.com/OpenMotionLab/MotionGPT

12 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 55 ms
Developed with Cursor