MotionGPT: Human Motion as a Foreign Language

作者： Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen

提交/修订日期： 2023年6月26日提交，2023年7月20日修订

摘要：
尽管预训练大语言模型取得了进展，但构建一个统一处理语言和其他多模态数据（如人体运动）的模型，至今仍具挑战性且鲜有探索。幸运的是，人体运动表现出与人类语言相似的语义耦合性，常被视为一种身体语言。通过将语言数据与大规模运动模型融合，能够增强运动相关任务性能的运动-语言预训练变得可行。基于这一见解，我们提出了MotionGPT，一个统一、通用且用户友好的运动-语言模型，用于处理多种与运动相关的任务。具体而言，我们采用离散向量量化方法处理人体运动，将3D运动转换为运动词元，类似于生成单词词元的过程。基于这个“运动词汇表”，我们以统一的方式对运动和文本进行语言建模，将人体运动视为一种特定的语言。此外，受提示学习启发，我们使用混合的运动-语言数据对MotionGPT进行预训练，并在基于提示的问答任务上进行微调。大量实验表明，MotionGPT在多个运动任务上达到了最先进的性能，包括文本驱动运动生成、运动描述、运动预测和运动插值。

主题/分类：
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)
- 图形学 (cs.GR)

项目页面： https://github.com/OpenMotionLab/MotionGPT

论文地址：https://arxiv.org/abs/2306.14795

40 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

MotionGPT：统一文本、动作与多模态控制的人体运动生成模型

MotionGPT: Human Motion as a Foreign Language