Feature Guide

Windows 语音输入功能特性与使用优化

本页说明 VoxType 的 Windows 语音输入、语音转文字、豆包流式 ASR、自动粘贴、剪贴板恢复和可选 LLM 润色能力。它不是配置字段大全，而是帮助用户理解“为什么这样设计”和“怎样用得更稳、更快”。

English version: Features and Usage Optimization

1. 核心工作流

VoxType 的主链路是：

触发录音 → 麦克风采集 → 豆包流式 ASR → 可选 LLM 润色 → 写入剪贴板 → 自动粘贴 → 恢复剪贴板 → 统计与日志

主链路保护策略：

空识别进入失败态，不触发润色、粘贴或成功统计。
只有 LLM 已启用、文本达到 min_chars，且 Base URL、API Key、模型名完整时，才显示“正在润色文本”。
悬浮字幕只显示实时字幕、耗时状态和错误提示，不显示“正在粘贴”“已粘贴”等瞬时状态。
统计不记录识别正文，只记录时长、字数、速度等非正文数据。

2. 首页

首页适合日常使用：

查看当前语音输入状态。
点击麦克风按钮开始/停止录音。
查看主快捷键和备用触发方式状态。
查看最近 24 小时、最近 7 日、输入速度和节省时间估算。
成功输入后，在当前窗口临时查看和复制最近一次识别文本。该文本不写入统计文件、日志或诊断报告，关闭窗口或开始下一次录音后会清除。

设计目标是让首页不承载复杂设置，只保留“现在能不能用”和“输入效果如何”。

3. 全局触发

默认只启用 Ctrl + Q。

触发方式	默认	建议
主快捷键	开启	保持开启
鼠标中键	关闭	确认不与浏览器、编辑器冲突后再开启
右 Alt	关闭	确认不与输入法或系统快捷键冲突后再开启

优化建议：

如果快捷键无反应，先确认 API 配置已完成，再检查热键是否被其他软件占用。
不建议同时开启多个容易误触的触发方式。

4. 麦克风采集

VoxType 使用 Rust cpal 采集 PCM 音频。

默认参数如下。这些属于底层参数，普通用户不需要在设置页修改；需要排障时可编辑 config.toml：

采样率：16000
声道：1
分片：200ms
最长录音：300s
连续低音量自动停止：30s，阈值 0.03

优化建议：

多麦克风环境下，优先在选项页选择固定输入设备。
说话距离过远、环境噪声大、系统麦克风权限关闭，都可能导致空识别。
如果本次录音一直没有有效语音，VoxType 会用本地静音兜底结束录音，避免等到最长录音上限。
录音时静音系统音量默认关闭，只有在回声明显影响识别时再开启。

5. 豆包流式 ASR

VoxType 默认使用豆包 bigmodel_async WebSocket。

特点：

支持实时片段展示。
最终结果更适合粘贴。
默认保留 ITN、标点、DDC 等底层请求能力，但普通用户不需要在界面调整。

影响速度和效果的因素：

因素	建议
音频分片	内部默认 200ms，兼顾实时性与稳定性
服务端判停	`end_window_size` 默认 800ms，已有手动配置会保留
本地静音兜底	连续低音量默认 30 秒后按手动停止流程自动停止
最终结果超时	默认 15 秒，网络异常时再通过 `config.toml` 调整
热词	对专有名词、人名、产品名很重要
最近上下文	连续写作可开启，但默认关闭以保护隐私
屏幕 OCR 上下文	默认开启，只识别当前前台窗口，适合界面词、文件名和代码标识符

6. 自动输入与剪贴板恢复

识别完成后，VoxType 会：

将最终文本写入剪贴板。
发送 Ctrl+V 或 Shift+Insert。
尝试恢复原剪贴板。

选项页直接提供：

Ctrl+V：默认，适合大多数输入框。
Shift+Insert：适合部分拦截 Ctrl+V 的软件。
仅复制到剪贴板：适合不希望自动向当前窗口发送粘贴快捷键的场景。
粘贴后恢复剪贴板：默认开启。

底层剪贴板恢复延迟、快照大小和重试参数保留在 config.toml。

优化建议：

如果某个软件粘贴失败，先切到记事本测试。
如果目标软件读取剪贴板较慢，适当增加恢复延迟。
若粘贴失败但文本已复制，可手动按 Ctrl + V。

7. 大模型润色

大模型润色适合：

口述长句整理为更自然的文本。
去掉口头语、重复、语序混乱。
长文本按语义分段、分行或分点。
结合热词和场景说明保留专有名词。

默认策略：

未启用 LLM 时，只使用 ASR。
文本短于 min_chars 时不润色。
thinking 默认关闭，降低延迟和测试不确定性。

优化建议：

短消息、命令式输入：不一定需要润色。
文档、会议纪要、需求说明：可以开启润色。
如果润色变慢，优先关闭 thinking，或提高 min_chars。

8. 热词、场景说明和 Prompt

热词适合解决“识别错词”：

VoxType
Tauri
豆包 ASR
项目代号
产品名

常用提示词 / 场景说明适合描述长期偏好：

我经常输入产品需求、Code Review、项目计划。
输出尽量简洁，不要扩写。
保留英文技术词和项目名。

Prompt 编辑适合高级用户：

User Prompt 模板默认可见。
最小润色字数在热词与提示词页。
System Prompt 保留在 config.toml。
可预览最终 Prompt，并确认场景上下文是否进入 LLM Prompt。

9. 自动热词候选

自动热词候选用于从历史语音输入中提取可能有价值的词。

隐私策略：

默认关闭。
只保存 VoxType 最终语音输入文本，不记录键盘输入，不读取剪贴板历史。
本地历史可清空。
只有手动点击生成候选时，才调用大模型。
候选必须用户确认后才加入热词。

适合开启的场景：

经常输入固定业务词、产品词、人名。
不想手动维护大量热词。

不建议开启的场景：

输入内容高度敏感。
不希望本地保存任何识别正文历史。

10. 屏幕 OCR 上下文

屏幕 OCR 上下文用于在开始录音时读取当前前台窗口文字，帮助 ASR 和可选 LLM 理解界面词、文件名、人名、代码标识符等上下文。

隐私与稳定性：

默认开启，但只截取当前前台窗口，不截取整个屏幕。
OCR 正文只用于本轮请求，不写入日志、统计、配置或缓存。
失败或超时会自动跳过，不影响录音、ASR、润色、剪贴板或粘贴。
当前窗口含敏感内容时，可在选项页关闭。

11. 悬浮字幕

悬浮字幕用于录音时确认实时识别状态。

默认展示：

实时字幕。
耗时状态。
错误提示。

不会展示：

正在粘贴。
已粘贴。
内部路径。
调试堆栈。

优化建议：

默认使用预设配色和透明度。
字幕挡住内容时，再通过 config.toml 调整宽度、高度和底部边距。

12. 统计分析

统计记录：

输入次数
语音时长
字数
平均速度
节省时间估算

统计不记录识别正文。

首页展示最近趋势，统计分析页展示按日统计。它适合观察 VoxType 是否真正节省时间，而不是查看历史正文。

13. 托盘、启动和更新

托盘：

关闭主窗口默认隐藏到托盘。
托盘菜单可打开主窗口、打开配置、查看日志、检查更新、重启程序或退出。

开机启动：

可在选项页开启。

更新：

选项页和托盘菜单都可手动检查更新。
启动自动检查默认开启。
发现新版本时提示和更新面板会提供“立即更新”按钮。
更新会下载 GitHub Release 中的 NSIS 安装包，安装时退出当前版本释放文件，安装完成后会尝试打开新版本。

14. 延迟优化速查

目标	优先调整
更快开始看到字幕	保持内部默认 200ms 音频分片，确认网络稳定
更快完成输入	不启用 LLM，或提高 `min_chars`
润色更快	关闭 thinking，选择响应更快的模型
粘贴更稳	保持剪贴板恢复开启，必要时增加恢复延迟
减少误触	不开启右 Alt 和鼠标中键
提升专有名词准确率	维护常用热词、场景说明和屏幕 OCR 上下文

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Feature Guide

Windows 语音输入功能特性与使用优化

1. 核心工作流

2. 首页

3. 全局触发

4. 麦克风采集

5. 豆包流式 ASR

6. 自动输入与剪贴板恢复

7. 大模型润色

8. 热词、场景说明和 Prompt

9. 自动热词候选

10. 屏幕 OCR 上下文

11. 悬浮字幕

12. 统计分析

13. 托盘、启动和更新

14. 延迟优化速查

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

简体中文

English

Clone this wiki locally