CVPR2018 | 让AI识别语义空间关系：斯坦福大学李飞飞组提出「参考关系模型」

时间：2026-04-13 19:19:26

最佳回答

斯坦福大学李飞飞组在CVPR2018提出的「参考关系模型」是一种利用结构化关系输入来明确区分图像中同类实体的计算模型，通过迭代传递主客体间的消息实现精准定位，并在多个数据集上展现了优越性能和可解释性。研究背景与核心问题图像不仅是目标的集合，更是相互关联的关系网，实体间的关系承载语义功能，可帮助区分同类实体。例如足球比赛中，通过“踢球”和“守门”的关系能区分不同球员。传统方法在参考式表达理解中需结合自然语言和计算机视觉组件，难以判断错误来源（语言或视觉模块）。而参考关系任务通过结构化关系输入（如subject - predicate - object），减少对语言建模的依赖，专注于评估识别同类实体的能力。图1：参考关系通过相对关系区分同类实体模型设计思路循环依赖建模：提出“若知道另一实体位置，检测当前实体会更容易”的思路，通过迭代模型在主客体间传递消息。例如，利用“踢球的人”定位球，再通过球反推“踢球的人”的位置。谓词运算符挑战：传统方法为每个谓词训练基于外观的模型，但谓词语义随实体变化（如“carrying”在person - carrying - phone和truck - carrying - hay中差异显著）。受心理学移动焦点理论启发，模型将谓词定义为视觉焦点转移操作：正谓词将焦点从主体转移到客体，逆谓词则反向转移，通过多次迭代实现精准定位。图2：参考关系的推理过程模型实现与迭代过程初始标注：从图像中提取特征，独立生成主体和客体的初始位置标注。焦点转移：利用谓词将焦点从主体转移到客体预期位置，通过关注偏移区域修改图像特征，细化客体定位；同时学习逆谓词变换，从客体反向定位主体。消息迭代：通过两个谓词移位模块在主客体间循环传递消息，逐步缩小定位范围，最终明确区分同类实体。图4：焦点迭代转移可视化实验结果与优势数据集表现：在CLEVR、VRD和Visual Genome三个数据集上，模型在主体和客体定位的Mean IoU和KL散度指标上均优于现有方法。这些数据集中33%、60.3%和61%的关系涉及同类多实例实体，模型在此类复杂场景中表现突出。可解释性：模型通过可视化的谓词移位（如“left”谓词将焦点从主体向右转移至客体，逆谓词则向左转移）展示了其决策逻辑，符合人类直觉（如“骑行”通常对应主体在客体下方）。泛化能力：即使未提供主体或客体信息，模型仍能区分实体；甚至能发现从未见过的类别实体，例如通过关系遍历场景图定位复杂短语中的所有实体（如“phone on the person next to another person wearing a jacket”）。图5：模型通过场景图遍历定位复杂短语中的实体模型代码与论文代码地址：https://github.com/StanfordVL/ReferringRelationships论文链接：https://arxiv.org/abs/1803.10362

时间：2026-04-13 19:19:32

本类最有帮助

网问答为提供知识和解答各类疑难的平台,目标是做到有问必答解决您遇到的各类问题.本站内容均为网友发表,并不代表本站立场!

投诉邮箱：