RECOGNITION · 识别准确度

怎么让声忆识别得更准

声忆默认本地引擎离线识别,免费但准确度有上限。需要更准时切换云引擎,或添加热词词典让专业术语识别更稳。

本地 vs 云引擎

维度 本地引擎(免费) 云引擎(Pro)
短句识别够用明显更准
长句 / 专业术语一般优势更大
中英混说部分支持识别更稳
标点符号基本不加自动加
隐私完全离线音频发火山引擎
额度无限Pro 无限 / Free 月 60 分钟

怎么切换

PATH

设置 → 引擎 → 选择「云引擎」或「本地引擎」

切换是即时生效的 — 下次按快捷键就用新引擎。两个引擎可以无缝切换,用户没感知。

💡 推荐用法:日常对话切短句用本地(够用 + 隐私);写专业邮件 / 长文档时切云引擎(更准 + 标点)。云引擎和 AI 整理一起开效果最好。

添加热词词典

有些词识别老错(人名、品牌名、专业术语、缩写),可以加到热词词典,下次识别会优先匹配。

PATH

设置 → 热词 → 添加

每行一个词。建议先加你最常说错的 5-10 个就够。

哪些词适合加热词

  • 专有名词:公司名、产品名、人名(如「飞书」「Anthropic」「张子涵」)
  • 缩写 / 英文术语:常被识别成发音相近的中文(「API」识别成「A 派」、「token」识别成「头肯」)
  • 固定搭配:你工作里常说的特定组合

标点符号

识别行为:

  • 本地引擎:基本不加标点。识别完文字是连续的,需要你自己加标点或开 AI 整理让它补。
  • 云引擎:自动加句号、逗号、问号、感叹号。基本不用调。

说话时 故意停顿 也会让两个引擎都识别成断句 — 适合在长句中明显分隔。

中英混说

声忆支持中英混说(如「这个 API 的 endpoint 是什么」)。两个引擎都能识别,但云引擎的中英切换更平滑。

  • 常见英文术语会被识别成英文(不会强转中文同音字)
  • 纯英文句子也行(如说「I'll send you the doc」)
  • 识别引擎默认主语言是中文,全英文段落识别准确度低于纯英文 ASR

口音 / 方言

声忆使用普通话识别引擎。如果你有较重的地方口音:

  • 云引擎容忍度更高:训练数据覆盖广,能识别带口音的普通话
  • 说话语速降一档:识别准确度跟语速负相关,慢一点能明显改善
  • 常错的字词加热词:如果某些字老识别错,加到热词词典

方言(粤语 / 闽南语 / 上海话等)目前不支持 — 需要纯方言识别请等后续版本,或者开 AI 整理让它根据上下文猜(部分情况能救)。

长句怎么处理

声忆没有句子长度上限,但有几个建议:

  • 30 秒以内:本地 / 云引擎都识别得稳。
  • 30-90 秒:建议切云引擎 + 开 AI 整理 — 长句更需要标点和结构整理。
  • 90 秒以上:考虑分段录入。声忆没硬限制,但太长的录音 AI 整理时容易超时(识别本身没问题)。

配合 AI 整理

识别引擎只负责「声音 → 文字」,整理口语成书面是 AI 整理的活。如果你说话风格偏口语(「呃...就是说...」「这个吧」),开 AI 整理会让最终文字干净很多。

详细的 AI 整理设置看 AI 整理文档