Skip to content

Feature Guide

zkwi edited this page May 9, 2026 · 4 revisions

Windows 语音输入功能特性与使用优化

本页说明 VoxType 的 Windows 语音输入、语音转文字、豆包流式 ASR、自动粘贴、剪贴板恢复和可选 LLM 润色能力。它不是配置字段大全,而是帮助用户理解“为什么这样设计”和“怎样用得更稳、更快”。

English version: Features and Usage Optimization

1. 核心工作流

VoxType 的主链路是:

触发录音 → 麦克风采集 → 豆包流式 ASR → 可选 LLM 润色 → 写入剪贴板 → 自动粘贴 → 恢复剪贴板 → 统计与日志

主链路保护策略:

  • 空识别进入失败态,不触发润色、粘贴或成功统计。
  • 只有 LLM 已启用、文本达到 min_chars,且 Base URL、API Key、模型名完整时,才显示“正在润色文本”。
  • 悬浮字幕只显示实时字幕、耗时状态和错误提示,不显示“正在粘贴”“已粘贴”等瞬时状态。
  • 统计不记录识别正文,只记录时长、字数、速度等非正文数据。

2. 首页

首页适合日常使用:

  • 查看当前语音输入状态。
  • 点击麦克风按钮开始/停止录音。
  • 查看主快捷键和备用触发方式状态。
  • 查看最近 24 小时、最近 7 日、输入速度和节省时间估算。
  • 成功输入后,在当前窗口临时查看和复制最近一次识别文本。该文本不写入统计文件、日志或诊断报告,关闭窗口或开始下一次录音后会清除。

设计目标是让首页不承载复杂设置,只保留“现在能不能用”和“输入效果如何”。

3. 全局触发

默认只启用 Ctrl + Q

触发方式 默认 建议
主快捷键 开启 保持开启
鼠标中键 关闭 确认不与浏览器、编辑器冲突后再开启
右 Alt 关闭 确认不与输入法或系统快捷键冲突后再开启

优化建议:

  • 如果快捷键无反应,先确认 API 配置已完成,再检查热键是否被其他软件占用。
  • 不建议同时开启多个容易误触的触发方式。

4. 麦克风采集

VoxType 使用 Rust cpal 采集 PCM 音频。

默认参数如下。这些属于底层参数,普通用户不需要在设置页修改;需要排障时可编辑 config.toml

  • 采样率:16000
  • 声道:1
  • 分片:200ms
  • 最长录音:300s
  • 连续低音量自动停止:30s,阈值 0.03

优化建议:

  • 多麦克风环境下,优先在选项页选择固定输入设备。
  • 说话距离过远、环境噪声大、系统麦克风权限关闭,都可能导致空识别。
  • 如果本次录音一直没有有效语音,VoxType 会用本地静音兜底结束录音,避免等到最长录音上限。
  • 录音时静音系统音量默认关闭,只有在回声明显影响识别时再开启。

5. 豆包流式 ASR

VoxType 默认使用豆包 bigmodel_async WebSocket。

特点:

  • 支持实时片段展示。
  • 最终结果更适合粘贴。
  • 默认保留 ITN、标点、DDC 等底层请求能力,但普通用户不需要在界面调整。

影响速度和效果的因素:

因素 建议
音频分片 内部默认 200ms,兼顾实时性与稳定性
服务端判停 end_window_size 默认 800ms,已有手动配置会保留
本地静音兜底 连续低音量默认 30 秒后按手动停止流程自动停止
最终结果超时 默认 15 秒,网络异常时再通过 config.toml 调整
热词 对专有名词、人名、产品名很重要
最近上下文 连续写作可开启,但默认关闭以保护隐私
屏幕 OCR 上下文 默认开启,只识别当前前台窗口,适合界面词、文件名和代码标识符

6. 自动输入与剪贴板恢复

识别完成后,VoxType 会:

  1. 将最终文本写入剪贴板。
  2. 发送 Ctrl+VShift+Insert
  3. 尝试恢复原剪贴板。

选项页直接提供:

  • Ctrl+V:默认,适合大多数输入框。
  • Shift+Insert:适合部分拦截 Ctrl+V 的软件。
  • 仅复制到剪贴板:适合不希望自动向当前窗口发送粘贴快捷键的场景。
  • 粘贴后恢复剪贴板:默认开启。

底层剪贴板恢复延迟、快照大小和重试参数保留在 config.toml

优化建议:

  • 如果某个软件粘贴失败,先切到记事本测试。
  • 如果目标软件读取剪贴板较慢,适当增加恢复延迟。
  • 若粘贴失败但文本已复制,可手动按 Ctrl + V

7. 大模型润色

大模型润色适合:

  • 口述长句整理为更自然的文本。
  • 去掉口头语、重复、语序混乱。
  • 长文本按语义分段、分行或分点。
  • 结合热词和场景说明保留专有名词。

默认策略:

  • 未启用 LLM 时,只使用 ASR。
  • 文本短于 min_chars 时不润色。
  • thinking 默认关闭,降低延迟和测试不确定性。

优化建议:

  • 短消息、命令式输入:不一定需要润色。
  • 文档、会议纪要、需求说明:可以开启润色。
  • 如果润色变慢,优先关闭 thinking,或提高 min_chars

8. 热词、场景说明和 Prompt

热词适合解决“识别错词”:

VoxType
Tauri
豆包 ASR
项目代号
产品名

常用提示词 / 场景说明适合描述长期偏好:

我经常输入产品需求、Code Review、项目计划。
输出尽量简洁,不要扩写。
保留英文技术词和项目名。

Prompt 编辑适合高级用户:

  • User Prompt 模板默认可见。
  • 最小润色字数在热词与提示词页。
  • System Prompt 保留在 config.toml
  • 可预览最终 Prompt,并确认场景上下文是否进入 LLM Prompt。

9. 自动热词候选

自动热词候选用于从历史语音输入中提取可能有价值的词。

隐私策略:

  • 默认关闭。
  • 只保存 VoxType 最终语音输入文本,不记录键盘输入,不读取剪贴板历史。
  • 本地历史可清空。
  • 只有手动点击生成候选时,才调用大模型。
  • 候选必须用户确认后才加入热词。

适合开启的场景:

  • 经常输入固定业务词、产品词、人名。
  • 不想手动维护大量热词。

不建议开启的场景:

  • 输入内容高度敏感。
  • 不希望本地保存任何识别正文历史。

10. 屏幕 OCR 上下文

屏幕 OCR 上下文用于在开始录音时读取当前前台窗口文字,帮助 ASR 和可选 LLM 理解界面词、文件名、人名、代码标识符等上下文。

隐私与稳定性:

  • 默认开启,但只截取当前前台窗口,不截取整个屏幕。
  • OCR 正文只用于本轮请求,不写入日志、统计、配置或缓存。
  • 失败或超时会自动跳过,不影响录音、ASR、润色、剪贴板或粘贴。
  • 当前窗口含敏感内容时,可在选项页关闭。

11. 悬浮字幕

悬浮字幕用于录音时确认实时识别状态。

默认展示:

  • 实时字幕。
  • 耗时状态。
  • 错误提示。

不会展示:

  • 正在粘贴。
  • 已粘贴。
  • 内部路径。
  • 调试堆栈。

优化建议:

  • 默认使用预设配色和透明度。
  • 字幕挡住内容时,再通过 config.toml 调整宽度、高度和底部边距。

12. 统计分析

统计记录:

  • 输入次数
  • 语音时长
  • 字数
  • 平均速度
  • 节省时间估算

统计不记录识别正文。

首页展示最近趋势,统计分析页展示按日统计。它适合观察 VoxType 是否真正节省时间,而不是查看历史正文。

13. 托盘、启动和更新

托盘:

  • 关闭主窗口默认隐藏到托盘。
  • 托盘菜单可打开主窗口、打开配置、查看日志、检查更新、重启程序或退出。

开机启动:

  • 可在选项页开启。

更新:

  • 选项页和托盘菜单都可手动检查更新。
  • 启动自动检查默认开启。
  • 发现新版本时提示和更新面板会提供“立即更新”按钮。
  • 更新会下载 GitHub Release 中的 NSIS 安装包,安装时退出当前版本释放文件,安装完成后会尝试打开新版本。

14. 延迟优化速查

目标 优先调整
更快开始看到字幕 保持内部默认 200ms 音频分片,确认网络稳定
更快完成输入 不启用 LLM,或提高 min_chars
润色更快 关闭 thinking,选择响应更快的模型
粘贴更稳 保持剪贴板恢复开启,必要时增加恢复延迟
减少误触 不开启右 Alt 和鼠标中键
提升专有名词准确率 维护常用热词、场景说明和屏幕 OCR 上下文