PE-Video 是由 Facebook 发布的一个文本数据集,主要用于视频相关的任务。该数据集包含近 11.8 万条文本数据,以 WebDataset 格式存储。
该数据集旨在支持与视频内容相关的文本处理研究,例如视频描述生成、视频内容理解、多模态学习中的文本对齐等任务。
适用于需要大规模视频相关文本数据的研究与开发,例如: - 训练视频字幕生成模型 - 视频内容检索与分类 - 多模态模型(视频-文本)的预训练或微调