近日,第32届ACM国际多媒体会议在澳大利亚墨尔本落下帷幕。该会议由美国计算机学会(Association for Computing Machinery,简称ACM)主办,同时其主办的视觉空间描述重大挑战(Grand Challenge: Visual Spatial Description,简称VSD2024)公布竞赛结果并颁发获奖证书。我院广西电力装备智能控制与运维重点实验室高放教授带领的GXU-LIPE团队荣获挑战赛第四名,同时受邀撰写论文并进行口头报告。 所获奖状 ACM Multimedia是由美国计算机学会主办的计算机视觉和多媒体处理领域的顶级国际会议,也是中国计算机学会推荐的该领域A类国际学术会议。每年大会特设主题挑战竞赛(Grand Challenges),遴选自全球相关领域的前沿主题。 VSD2024属于视觉空间语义理解的研究领域。在该挑战赛中,模型需要生成一个准确的文本描述句子,来描述输入图像中两个给定目标对象之间的空间关系。主办方提供了一个大规模的视觉空间描述数据集,包含29,272个高质量手动标注的图像—文本对。 GXU-LIPE团队由高放教授和课题组研究生王家宝、唐镜峰组成。团队受邀撰写了论文《A Method for Visual Spatial Description Based on Large Language Model Fine-tuning》发表在第32届ACM国际多媒体会议,并前往墨尔本进行口头报告。 科研团队在做报告 GXU-LIPE团队设计了一种创新的基于大模型的方法,通过微调大语言模型FLANXXL提升了视觉空间关系描述的效果。首先通过预训练模型提取图像特征和文本特征,然后采用Q-former进行特征融合,最终通过大语言模型输出文本描述。为解决LLM特征捕获困难的问题,将原始特征与融合后的特征一并输入FLANXXL,并采用数据增强、先验知识和多种训练策略等进行微调,具体包括提升文本多样性、引入对象重叠先验、基于动量蒸馏筛选难负样本及生成软标签,基于权重平衡长尾数据等。通过多模态特征融合和微调,模型在挑战赛测试集上表现优异,生成了准确且更真实的对象空间关系描述文本。 概念图 本次参加ACM MM会议由广西大学“2024年研究生素质能力提升项目”资助,为LIPE重点实验室提供了宝贵的国际交流机会,提升在视觉语言处理、多模态融合、人工智能等领域的科研能力。王家宝同学表示,在多媒体处理和计算机视觉应用的快速发展背景下,此次参会有助于深入了解国际领先的研究动向、结识领域专家,并为后续课题研究提供创新灵感和新的合作机会。