-
Notifications
You must be signed in to change notification settings - Fork 0
Feature Guide
本页说明 VoxType 的 Windows 语音输入、语音转文字、豆包流式 ASR、自动粘贴、剪贴板恢复和可选 LLM 润色能力。它不是配置字段大全,而是帮助用户理解“为什么这样设计”和“怎样用得更稳、更快”。
English version: Features and Usage Optimization
VoxType 的主链路是:
触发录音 → 麦克风采集 → 豆包流式 ASR → 可选 LLM 润色 → 写入剪贴板 → 自动粘贴 → 恢复剪贴板 → 统计与日志
主链路保护策略:
- 空识别进入失败态,不触发润色、粘贴或成功统计。
- 只有 LLM 已启用、文本达到
min_chars,且 Base URL、API Key、模型名完整时,才显示“正在润色文本”。 - 悬浮字幕只显示实时字幕、耗时状态和错误提示,不显示“正在粘贴”“已粘贴”等瞬时状态。
- 统计不记录识别正文,只记录时长、字数、速度等非正文数据。
首页适合日常使用:
- 查看当前语音输入状态。
- 点击麦克风按钮开始/停止录音。
- 查看主快捷键和备用触发方式状态。
- 查看最近 24 小时、最近 7 日、输入速度和节省时间估算。
- 成功输入后,在当前窗口临时查看和复制最近一次识别文本。该文本不写入统计文件、日志或诊断报告,关闭窗口或开始下一次录音后会清除。
设计目标是让首页不承载复杂设置,只保留“现在能不能用”和“输入效果如何”。
默认只启用 Ctrl + Q。
| 触发方式 | 默认 | 建议 |
|---|---|---|
| 主快捷键 | 开启 | 保持开启 |
| 鼠标中键 | 关闭 | 确认不与浏览器、编辑器冲突后再开启 |
| 右 Alt | 关闭 | 确认不与输入法或系统快捷键冲突后再开启 |
优化建议:
- 如果快捷键无反应,先确认 API 配置已完成,再检查热键是否被其他软件占用。
- 不建议同时开启多个容易误触的触发方式。
VoxType 使用 Rust cpal 采集 PCM 音频。
默认参数如下。这些属于底层参数,普通用户不需要在设置页修改;需要排障时可编辑 config.toml:
- 采样率:
16000 - 声道:
1 - 分片:
200ms - 最长录音:
300s - 连续低音量自动停止:
30s,阈值0.03
优化建议:
- 多麦克风环境下,优先在选项页选择固定输入设备。
- 说话距离过远、环境噪声大、系统麦克风权限关闭,都可能导致空识别。
- 如果本次录音一直没有有效语音,VoxType 会用本地静音兜底结束录音,避免等到最长录音上限。
- 录音时静音系统音量默认关闭,只有在回声明显影响识别时再开启。
VoxType 默认使用豆包 bigmodel_async WebSocket。
特点:
- 支持实时片段展示。
- 最终结果更适合粘贴。
- 默认保留 ITN、标点、DDC 等底层请求能力,但普通用户不需要在界面调整。
影响速度和效果的因素:
| 因素 | 建议 |
|---|---|
| 音频分片 | 内部默认 200ms,兼顾实时性与稳定性 |
| 服务端判停 |
end_window_size 默认 800ms,已有手动配置会保留 |
| 本地静音兜底 | 连续低音量默认 30 秒后按手动停止流程自动停止 |
| 最终结果超时 | 默认 15 秒,网络异常时再通过 config.toml 调整 |
| 热词 | 对专有名词、人名、产品名很重要 |
| 最近上下文 | 连续写作可开启,但默认关闭以保护隐私 |
| 屏幕 OCR 上下文 | 默认开启,只识别当前前台窗口,适合界面词、文件名和代码标识符 |
识别完成后,VoxType 会:
- 将最终文本写入剪贴板。
- 发送
Ctrl+V或Shift+Insert。 - 尝试恢复原剪贴板。
选项页直接提供:
-
Ctrl+V:默认,适合大多数输入框。 -
Shift+Insert:适合部分拦截Ctrl+V的软件。 - 仅复制到剪贴板:适合不希望自动向当前窗口发送粘贴快捷键的场景。
- 粘贴后恢复剪贴板:默认开启。
底层剪贴板恢复延迟、快照大小和重试参数保留在 config.toml。
优化建议:
- 如果某个软件粘贴失败,先切到记事本测试。
- 如果目标软件读取剪贴板较慢,适当增加恢复延迟。
- 若粘贴失败但文本已复制,可手动按
Ctrl + V。
大模型润色适合:
- 口述长句整理为更自然的文本。
- 去掉口头语、重复、语序混乱。
- 长文本按语义分段、分行或分点。
- 结合热词和场景说明保留专有名词。
默认策略:
- 未启用 LLM 时,只使用 ASR。
- 文本短于
min_chars时不润色。 - thinking 默认关闭,降低延迟和测试不确定性。
优化建议:
- 短消息、命令式输入:不一定需要润色。
- 文档、会议纪要、需求说明:可以开启润色。
- 如果润色变慢,优先关闭 thinking,或提高
min_chars。
热词适合解决“识别错词”:
VoxType
Tauri
豆包 ASR
项目代号
产品名
常用提示词 / 场景说明适合描述长期偏好:
我经常输入产品需求、Code Review、项目计划。
输出尽量简洁,不要扩写。
保留英文技术词和项目名。
Prompt 编辑适合高级用户:
- User Prompt 模板默认可见。
- 最小润色字数在热词与提示词页。
- System Prompt 保留在
config.toml。 - 可预览最终 Prompt,并确认场景上下文是否进入 LLM Prompt。
自动热词候选用于从历史语音输入中提取可能有价值的词。
隐私策略:
- 默认关闭。
- 只保存 VoxType 最终语音输入文本,不记录键盘输入,不读取剪贴板历史。
- 本地历史可清空。
- 只有手动点击生成候选时,才调用大模型。
- 候选必须用户确认后才加入热词。
适合开启的场景:
- 经常输入固定业务词、产品词、人名。
- 不想手动维护大量热词。
不建议开启的场景:
- 输入内容高度敏感。
- 不希望本地保存任何识别正文历史。
屏幕 OCR 上下文用于在开始录音时读取当前前台窗口文字,帮助 ASR 和可选 LLM 理解界面词、文件名、人名、代码标识符等上下文。
隐私与稳定性:
- 默认开启,但只截取当前前台窗口,不截取整个屏幕。
- OCR 正文只用于本轮请求,不写入日志、统计、配置或缓存。
- 失败或超时会自动跳过,不影响录音、ASR、润色、剪贴板或粘贴。
- 当前窗口含敏感内容时,可在选项页关闭。
悬浮字幕用于录音时确认实时识别状态。
默认展示:
- 实时字幕。
- 耗时状态。
- 错误提示。
不会展示:
- 正在粘贴。
- 已粘贴。
- 内部路径。
- 调试堆栈。
优化建议:
- 默认使用预设配色和透明度。
- 字幕挡住内容时,再通过
config.toml调整宽度、高度和底部边距。
统计记录:
- 输入次数
- 语音时长
- 字数
- 平均速度
- 节省时间估算
统计不记录识别正文。
首页展示最近趋势,统计分析页展示按日统计。它适合观察 VoxType 是否真正节省时间,而不是查看历史正文。
托盘:
- 关闭主窗口默认隐藏到托盘。
- 托盘菜单可打开主窗口、打开配置、查看日志、检查更新、重启程序或退出。
开机启动:
- 可在选项页开启。
更新:
- 选项页和托盘菜单都可手动检查更新。
- 启动自动检查默认开启。
- 发现新版本时提示和更新面板会提供“立即更新”按钮。
- 更新会下载 GitHub Release 中的 NSIS 安装包,安装时退出当前版本释放文件,安装完成后会尝试打开新版本。
| 目标 | 优先调整 |
|---|---|
| 更快开始看到字幕 | 保持内部默认 200ms 音频分片,确认网络稳定 |
| 更快完成输入 | 不启用 LLM,或提高 min_chars
|
| 润色更快 | 关闭 thinking,选择响应更快的模型 |
| 粘贴更稳 | 保持剪贴板恢复开启,必要时增加恢复延迟 |
| 减少误触 | 不开启右 Alt 和鼠标中键 |
| 提升专有名词准确率 | 维护常用热词、场景说明和屏幕 OCR 上下文 |