语音
Seawork 对听写和与编程环境的实时对话提供一流的语音支持。
设计理念
语音采用本地优先原则。你可以完全在设备上运行语音,也可以选择 OpenAI 提供语音功能。语音推理/编排方面,Seawork 复用已在你机器上安装并认证的智能体提供商。
这样既保留了凭证和执行权在你的环境中,也避免引入独立的纯云端语音栈。
架构
- 语音 I/O:每个功能独立配置 STT 和 TTS 提供商 (
localoropenai) - 本地语音运行时:默认使用 CPU 执行 ONNX 模型
- 语音 LLM 编排:使用你配置的提供商运行隐藏智能体会话(
claudeorcodex) - 工具路径:用于语音工具和智能体控制的 MCP stdio 桥接
本地语音
本地语音默认使用模型 parakeet-tdt-0.6b-v3-int8 (STT)和 kokoro-en-v0_19 (TTS,说话人 0 / 声音 00)。
缺失的模型会在守护进程启动时下载到 $SEAWORK_HOME/models/local-speech. 。仅下载缺失的文件。
{
"version": 1,
"features": {
"dictation": { "stt": { "provider": "local", "model": "parakeet-tdt-0.6b-v3-int8" } },
"voiceMode": {
"llm": { "provider": "claude", "model": "haiku" },
"stt": { "provider": "local", "model": "parakeet-tdt-0.6b-v3-int8" },
"tts": { "provider": "local", "model": "kokoro-en-v0_19", "speakerId": 0 }
}
},
"providers": {
"local": {
"modelsDir": "~/.seawork/models/local-speech"
}
}
}OpenAI 语音选项
你可以将听写、语音 STT 和 TTS 切换到 OpenAI,只需将提供商字段设置为 openai 并提供 OPENAI_API_KEY。
{
"version": 1,
"features": {
"dictation": { "stt": { "provider": "openai" } },
"voiceMode": {
"stt": { "provider": "openai" },
"tts": { "provider": "openai" }
}
},
"providers": {
"openai": { "apiKey": "..." }
}
}环境变量
OPENAI_API_KEY— OpenAI 语音凭证SEAWORK_VOICE_LLM_PROVIDER— 语音智能体提供商覆盖SEAWORK_LOCAL_MODELS_DIR— 本地模型存储目录SEAWORK_DICTATION_LOCAL_STT_MODEL— 本地听写 STT 模型 IDSEAWORK_VOICE_LOCAL_STT_MODEL,SEAWORK_VOICE_LOCAL_TTS_MODEL— 本地语音 STT/TTS 模型 IDSEAWORK_VOICE_LOCAL_TTS_SPEAKER_ID,SEAWORK_VOICE_LOCAL_TTS_SPEED— 可选的本地语音 TTS 调参
使用注意事项
实时语音可以启动和控制智能体。请像对待直接智能体指令一样谨慎对待语音提示,尤其是在指定工作目录或破坏性操作时。
