# 人类偏好收集 (Human Feedback Collection) # 人类偏好收集使用说明可以理解为「上面是共同的问题或指令，下面是两条不同回答，点选你认为更好、更合适或更符合规范的一条」。同一提示下对比可减少位置偏差带来的先验；导出结果通常可映射为「胜 / 负」或偏好分数。它适合 RLHF 数据管线、对话质量排序与安全偏好标注。 ## 标注核心作用 1. 成对比较同一 `prompt` 下的 `answer1` 与 `answer2`，直接服务偏好学习与奖励建模； 2. `Pairwise` 的 `selectionStyle` 高亮被选侧，降低误触与漏选； 3. 布局与样式与监督式提示模版风格统一，便于在同一项目中混排任务类型。 ## 基础操作步骤 1. 完整阅读蓝色提示区中的问题或指令； 2. 依次阅读左右两个答案框中的全文，并按项目规范比较事实性、完整性、安全与风格； 3. 点击更优答案所在区域完成选择（选中后会出现绿色高亮等样式，以实际渲染为准）。 ![人类偏好收集标注示例](./images/human-feedback-collection-example.png) 说明：截图中的箭头为操作示意；实际排版可能为左右并排或随容器宽度换行，与 `flex-wrap` 行为一致。 ## 注意事项 - 两条答案的展示顺序是否随机、是否需做位置平衡，应在数据准备阶段约定； - `toName="answer1,answer2"` 须与下方两个 `Text` 的 `name` 一致，否则无法建立配对关系； - 评判标准（谁更「好」）必须文档化，避免不同标注员标准漂移； - 长文本注意换行与可读性，必要时在 CSS 中调整 `flex-basis` 或字号。 ## 模板预览 ![人类偏好收集模板预览](./images/human-feedback-collection.png) ## 模板配置 ### 完整代码块 ```html ``` ### 配置代码说明以上代码在卡片内展示提示与两个候选答案，并通过 `Pairwise` 收集点击偏好。 1、样式：`root` / `container` 控制页边与卡片阴影；`prompt` 为只读问题区；`answers` 使用 flex 并排展示；`answer-box` 为单个候选容器。 2、提示：`Text name="prompt" value="$prompt"` 读取任务中的提示字段。 3、成对比较：`Pairwise name="comparison" toName="answer1,answer2"` 将两个命名的 `Text` 区域组成一对可选项；`selectionStyle` 为选中态的内联样式字符串。 4、候选答案：两个 `View className="answer-box"` 内分别放置 `answer1`、`answer2`，内容来自 `$answer1`、`$answer2`。 ### 示例数据（简要） ```json { "data": { "prompt": "在大语言模型（LLM）生成的数据集收集中，采用人类反馈强化学习（RLHF）有哪些主要优势？", "answer1": "强化学习结合人类反馈（RLHF）在大语言模型（LLM）生成的数据集收集中具有诸多关键优势，包括通过直接优化提升模型性能、通过引入人类反馈更好地对齐人类价值观，以及能够基于用户交互不断迭代优化模型，从而使语言模型更加友好高效。", "answer2": "使用人类反馈强化学习（RLHF）进行大语言模型（LLM）生成的数据集收集具有诸多优势，例如通过优化期望结果提升模型能力，通过引入人类反馈更好地适应人类偏好，以及基于用户体验不断改进模型，最终实现更高效、更响应的语言模型。" } } ``` 说明 - 代码可直接复制到标注配置文件中使用； - 若平台对 `Pairwise` 与 `Text` 的 DOM 顺序有要求，请以官方文档为准并必要时调整节点顺序； - 扩展为三路以上比较时，需改用支持多候选的组件或拆分为多任务。