# 聊天机器人模型评估 (Chatbot Assessment) # 聊天机器人模型评估使用说明可以理解为「读完整段人机对话，然后按维度打分、勾选题项」。先给整体质量打 1–7 星，再逐项判断是否存在未遵循指令、客服场景不当、幻觉，以及色情、暴力等政策相关风险。它适合对话模型上线前评估、数据集构建与多维度偏好标注。 ## 标注核心作用 1. 对话与问卷同屏，减少切屏与样本对齐错误； 2. `Paragraphs` 使用 `role` / `content` 字段，与常见对话 JSON 一致； 3. 质量量表与安全/合规题项分层展示，导出后可做多标签分析。 ## 基础操作步骤 1. 自上而下阅读左侧全部轮次，区分用户与助手内容； 2. 在「整体质量评估」中选择 1–7 星（以平台星级组件为准）； 3. 依次阅读右侧各题标题，在「是 / 否」单选项中择一。 ![聊天机器人模型评估标注示例](./images/chatbot-assessment-example.png) 说明：截图中①②为示意；具体星数与选项以任务为准。 ## 注意事项 - 导入数据中每条消息须包含 `role` 与 `content`，并与 `nameKey`、`textKey` 一致； - 各 `Choices` 的 `toName="dialogue"` 将标注绑定到对话对象，导出结构以平台为准； - CSS 使用设计令牌（如 `var(--spacing-base)`），需运行在支持这些变量的主题环境下； - 右侧外层容器 `className` 须与样式表中的 **`.assessment-items-container`** 一致，否则 `gap` 等布局规则不会生效。 ## 模板预览 ![聊天机器人模型评估模板预览](./images/chatbot-assessment.png) ## 模板配置 ### 完整代码块 ```html

聊天机器人模型评估

``` ### 配置代码说明以上代码为左右分栏：左侧 `Paragraphs` 渲染对话，右侧为评分与多项二选一评测。 1、布局：`container` 使用 flex；`text-block` 放对话；`assessment-items-container` 纵向排列各评测块（**请与样式表中类名保持一致**）。 2、对话：`Paragraphs` 的 `value="$messages"`，`nameKey="role"`、`textKey="content"` 对应数据中的发言者键与正文键。 3、整体质量：`Rating` 提供 1–7 分量表；若需绑定到对话对象，可按平台文档为 `Rating` 补充 `toName` 等属性。 4、细项判断：每组 `Choices` 使用 `choice="single-radio"` 与 `showInline="true"`，`name` 各不相同，便于导出区分字段。 ### 示例数据（简要） ```json { "data": { "messages": [ {"role": "用户", "content": "你怎么看人工智能在未来十年的发展？"}, {"role": "助手", "content": "人工智能预计会在医疗、教育和软件开发中持续提升效率，同时也需要更严格的安全与伦理规范。"}, {"role": "用户", "content": "普通人现在学哪种技术最有前景？"}, {"role": "助手", "content": "可以优先学习数据分析、编程基础和 AI 工具应用，这些能力在多数行业都很实用。"}, {"role": "用户", "content": "AI 会不会完全取代程序员？"}, {"role": "助手", "content": "更可能是重塑工作方式：AI 负责重复性任务，人类专注架构设计、复杂决策和创新。"}, {"role": "用户", "content": "那我该如何制定一个三个月的学习计划？"}, {"role": "助手", "content": "第一月打基础（Python 与数据处理），第二月做两个小项目，第三月结合 AI API 做一个完整应用并复盘优化。"} ] } } ``` 说明 - 代码可直接复制到标注配置文件中使用； - 题项文案、维度数量可按政策与业务增删，并保持 `Choices` 的 `name` 唯一； - 若主题未定义相关 CSS 变量，需改为具体颜色与间距数值，否则样式可能回退为默认。