CinePile是马里兰大学和魏茨曼科学研究所联合构建的一个针对长视频理解而设计的大型数据集。该数据集包含约305,000个多项选择题,源自9396个视频片段,涵盖了对视频内容的多维度理解,包括时间理解、人物与物体交互以及场景内事件或动作的推理等方面。数据集的构建过程采用自动化问题生成与验证的方法,结合了大模型和人工审核,确保了问题的质量和多样性。CinePile不仅为视频理解模型提供了一个全面的评估基准,也可用于视频内容分析和智能视频推荐,特别强调长视频的连贯性和上下文理解。
详情请参见五号雷达:https://www.5radar.com/result?key=CinePile
领取专属 10元无门槛券
私享最新 技术干货