视觉问答 (Visual Question Answering)

视觉问答使用说明

视觉问答可以理解为“先看图，再回答问题”：根据给定图片内容，逐条回答问题文本（Q1/Q2/Q3），并录入对应答案。它适合属性识别、计数、比较、逻辑推理等任务，常用于多模态理解与推理模型训练场景。

标注核心作用

构建图文推理数据：将图像与问题、答案配对，形成标准化问答样本；
支持多类型问题标签：可按“属性识别/计数/比较/逻辑运算”区分任务类型；
适配批量问答流程：同一图像可配置多问题输入，提高标注效率。

基础操作步骤

查看图片并选择问题类型标签；
阅读 Q1~Q3 问题内容并逐项作答；
检查答案准确性后提交。

视觉问答标注示例

说明：建议先完整阅读全部问题，再统一作答，减少前后答案不一致。

注意事项

答案应基于图像可见信息，不添加主观推测；
计数类问题需统一计数口径（如是否包含遮挡目标）；
比较和逻辑题建议先明确对象，再给出简洁结论。

模板预览

视觉问答模板预览

模板配置

完整代码块

<View>
  <Image name="image" value="$image_path"/>
  <Labels name="aspect" toName="q1">
    <Label value="属性识别" background="#F39C12"/>
    <Label value="计数" background="#E74C3C"/>
    <Label value="比较" background="#3498DB"/>
    <Label value="逻辑运算" background="#8E44AD"/>
  </Labels>
  <Header value="请回答以下问题："/>

  <View style="display: grid; grid-template-columns: 1fr 10fr 1fr 3fr; column-gap: 1em">
    <Header value="Q1:"/>
    <Text name="q1" value="$q1"/>
    <Header value="A1:"/>
    <TextArea name="answer1" toName="q1" rows="1" maxSubmissions="1"/>
  </View>

  <View style="display: grid; grid-template-columns: 1fr 10fr 1fr 3fr; column-gap: 1em">
    <Header value="Q2:"/>
    <Text name="q2" value="$q2"/>
    <Header value="A2:"/>
    <TextArea name="answer2" toName="q2" rows="1" maxSubmissions="1"/>
  </View>
  <View style="display: grid; grid-template-columns: 1fr 10fr 1fr 3fr; column-gap: 1em">
    <Header value="Q3:"/>
    <Text name="q3" value="$q3"/>
    <Header value="A3:"/>
    <TextArea name="answer3" toName="q3" rows="1" maxSubmissions="1"/>
  </View>
</View>

视觉问答配置代码说明

以上代码用于实现“图像 + 多问题 + 多答案输入”的 VQA 标注流程。

1、问题类型标签：Labels name="aspect" 用于标记当前问答任务类型（如属性识别、计数等）。

2、问题与答案区域：每个问题采用 Text 展示问题内容，TextArea 接收答案输入，maxSubmissions="1" 限制单题单答案提交。

3、布局方式：通过 grid 排列 Q/A 字段，提升多问题场景下的可读性。

示例数据（简要）

以下示例展示如何向模板传入图像地址与问题文本，可按项目实际问题内容替换。

{
  "data": {
    "image_path": "/static/templates/project-templates-config/computer-vision/visual-question-answering/visual-question-answering.png",
    "q1": "上图主要是什么物品：",
    "q2": "问题2",
    "q3": "问题3"
  }
}

说明

代码可直接复制到标注配置文件中使用；
问题数量可按需求扩展，保持 Text 与 TextArea 成对出现即可；
建议制定答案格式规范（如单位、数字格式）以便后续训练与评估。

视觉基因组 (Visual Genome)

命名实体识别 (Named Entity Recognition)

视觉问答 (Visual Question Answering)

视觉问答使用说明

标注核心作用#

基础操作步骤#

注意事项#

模板预览#

模板配置#

完整代码块#

视觉问答配置代码说明#

示例数据（简要）#