音频/语音处理 on 据吉文档

自动语音识别 (Automatic Speech Recognition)

Wed, 22 Apr 2026 08:00:00 +0000

自动语音识别使用说明

可以理解为「识别音频的内容，并写成文字」。例如方言采集、客服录音质检或 ASR 模型评测场景中，人工听写作为参考文本，便于计算字错率或与模型输出对比。

标注核心作用

Audio 提供波形、播放与 zoom="true" 缩放，便于定位含糊片段；
hotkey="ctrl+enter" 可在部分环境中用于快捷提交（以平台实际支持为准）；
TextArea 通过 toName="audio" 与音频对象绑定，导出时与同一任务对齐。

基础操作步骤

使用播放、暂停与波形缩放反复听辨；
在文本框中输入此音频的完整转写；
点击「添加」等，即可保存本条转写；
自检是否与音频一致后提交任务。

使用片段的自动语音识别 (Automatic Speech Recognition Using Segments)

Wed, 22 Apr 2026 08:00:00 +0000

片段的自动语音识别使用说明

可以理解为「先在时间轴上切出若干段，标成语音或噪音，再对每一段语音分别听写」。与整段转写相比，本模版强调区段时间边界 + 区段文本对齐，便于做带噪声间隔的长音频数据集。

标注核心作用

Labels 提供 语音 / 噪音 等类别，在 Audio 上创建可着色区段；
TextArea 设 perRegion="true"，转写内容与当前选中区段一一对应；
required="true" 要求为相关区段完成必填校验（若噪音段不应打字，请在培训材料中约定是否留空及平台是否允许）。

基础操作步骤

选择最上方的语音或噪音的标签；
拖选时间范围形成区段（可重复添加多段）；
完成拖选后，单击高亮部分，就会出现对应的输入框；
在下方输入框中输入该段转写；
完成此段转写后，点击添加按钮保存。

对话分析 (Conversational Analysis)

Wed, 22 Apr 2026 08:00:00 +0000

对话分析使用说明

可以理解为「先听整条对话录音，再对每一句（或每一段话轮）选情感标签」。与按片段的 ASR 不同，话轮文本通常已由上游 ASR 写好，本任务侧重对齐音频与话轮级标签。

标注核心作用

Audio 使用 sync="text"，与 Paragraphs 的 sync="audio" 配对，实现播放进度与话轮列表联动；
Paragraphs 以 layout="dialogue" 展示气泡，textKey / nameKey 映射正文与说话人，granularity="paragraph" 以段为操作单元；
ParagraphLabels 将 积极 / 消极 等标签绑定到 name="text" 的话轮对象，用于整段标注。

基础操作步骤

用顶部波形与播放键听全段或逐段播放（单条气泡旁也可能有播放入口）；
在「对话转录」中浏览说话人、时间与正文，可用「显示所有作者」与「自动滚动」辅助阅读；
在「情感标签」中选择积极或消极；
直接在文字部分选区标注，或者点击气泡后面标识一键标注整句话。

意图分类 (Intent Classification)

Tue, 21 Apr 2026 08:00:00 +0000

意图分类使用说明

可以理解为「先把长音频切成几段，再对每一段进行意图分类。与使用片段的自动语音识别（语音/噪音 + 转写）不同，本模版不写转写，只做区段 + 意图分类。

标注核心作用

Labels 提供 语音片段一 / 二 / 三 等，用于在 Audio 上创建带类型的区段（名称可按项目改写）；
Choices 使用 perRegion="true"，选项随当前选中区段切换；
required="true" 要求每个区段完成意图选择后再提交（以平台校验为准）。

基础操作步骤

阅读任务说明，明确各「语音片段」标签与意图类别的含义；
在顶部选择一种片段标签，在波形上拖选时间范围；可换标签标下一段；
点击高亮的区段后，在下方会显示意图列表；
在意图列表中勾选一项对该区段完成意图标注。

信号质量监测 (Signal Quality Detection)

Thu, 23 Apr 2026 08:00:00 +0000

信号质量监测使用说明

可以理解为「听完整条音频后，用星级给此音频信号质量打分」。与时间序列分析里在曲线上按区段评质量不同，本模版是整段一条音频一个分数。

标注核心作用

Header 明确 1–10 分与「信号质量」的判定提示，便于培训对齐；
Rating 绑定到 Audio 对象，导出时与 audio 字段同一任务；
布局上评分在播放器上方，符合「先看说明 → 再听 → 再打分」的操作顺序（也可按产品调整顺序）。

基础操作步骤

阅读顶栏说明，明确 1 分与 10 分分别对应什么现象；
使用波形区播放、拖动进度，必要时反复听同一片段；
在星标控件上点选 1–10 分；
自检与规范一致后提交。

声音事件监测 (Sound Event Detection)

Fri, 24 Apr 2026 08:00:00 +0000

声音事件监测使用说明

可以理解为「在一条音频里，把不同事件在时间线上标出来」。与意图分类（区段 + 语言意图）不同，本模版只标声学与时间边界，不依赖文本；与使用片段的自动语音识别相比，这里区段表示不同事件而不是「语音/噪音 + 转写」。

标注核心作用

Labels 提供至少两类可区分颜色（如红 / 绿），在波形上形成可重叠、可多段的区段（以平台能力为准）；
Audio 承担播放与时间轴展示，便于精调区段起止；
配置极简单，适合作为 SED / 音频强监督 的起点。

基础操作步骤

在顶部选择当前要标的事件类型；
在波形上拖选起止时间；可切换标签标注另一类事件，重复多段；
自检区段与听感一致后提交。

说话人分割 (Speaker Segmentation)

Wed, 22 Apr 2026 08:00:00 +0000

说话人分割使用说明

可以理解为「谁在什么时候说话」：在一条录音里，用两种颜色在时间上标出说话人甲、说话人乙的片段（可多次交替）。与对话分析（已带 author+时间+正文的气泡）不同，这里只有波形区段；与声音事件监测的交互类似，但标签语义是说话人而不是泛化「事件」。

标注核心作用

两类标签常对应两个说话人，颜色用强对比（如亮绿与深绿）减少混淆；
可连续多段、交替标同一说话人，以覆盖多人轮流发言的长音频；
为下游 diarization、说话人相关 ASR 或质检提供时间掩码级标注。

基础操作步骤

听全段，熟悉每人嗓音与交替节奏，明确「说话人一 / 二」在规范中的指代；
选择当前要标的说话人标签；
在波形上拖选该说话人发声的起止；换人时切换另一标签，重复至覆盖需标注的区间；
必要时微调区段边界，与项目边界规则一致后提交。

语音转录 (Speech Transcription)

Wed, 22 Apr 2026 08:00:00 +0000

语音转录使用说明

可以理解为「先像使用片段的自动语音识别一样划区，选择每个语音区的情感态度，并进行语音转写」。「噪音」区一般只做时间标记，不强制跟转写和情感。适合分段 ASR + 话段情感联合标注。

标注核心作用

whenTagName="label" whenLabelValue="语音" 使 TextArea 与 Choices 仅在「语音」区段展示，避免在噪音区误填；
displayMode="region-list" 把转写放在区域列表面板中，便于多段管理；
Choice 使用 html 嵌入大表情，提升点选速度。

基础操作步骤

听全段，熟悉每人嗓音与交替节奏；
选中不同的标签，并在波形图上标注对应的片段；
点击对应的片段，即可出现情感划分选项，在同一区段为 积极 / 中性 / 消极 择一；
在底部「区域」列表中找到对应条目，在文本框中输入该段转写；
多段重复上述操作后提交。