作者: Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen
提交/修订日期: 2023年6月26日提交,2023年7月20日修订
摘要:
尽管预训练大语言模型取得了进展,但构建一个统一处理语言和其他多模态数据(如人体运动)的模型,至今仍具挑战性且鲜有探索。幸运的是,人体运动表现出与人类语言相似的语义耦合性,常被视为一种身体语言。通过将语言数据与大规模运动模型融合,能够增强运动相关任务性能的运动-语言预训练变得可行。基于这一见解,我们提出了MotionGPT,一个统一、通用且用户友好的运动-语言模型,用于处理多种与运动相关的任务。具体而言,我们采用离散向量量化方法处理人体运动,将3D运动转换为运动词元,类似于生成单词词元的过程。基于这个“运动词汇表”,我们以统一的方式对运动和文本进行语言建模,将人体运动视为一种特定的语言。此外,受提示学习启发,我们使用混合的运动-语言数据对MotionGPT进行预训练,并在基于提示的问答任务上进行微调。大量实验表明,MotionGPT在多个运动任务上达到了最先进的性能,包括文本驱动运动生成、运动描述、运动预测和运动插值。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)
- 图形学 (cs.GR)
项目页面: https://github.com/OpenMotionLab/MotionGPT