语音

Seawork 对听写和与编程环境的实时对话提供一流的语音支持。

设计理念

语音采用本地优先原则。你可以完全在设备上运行语音，也可以选择 OpenAI 提供语音功能。语音推理/编排方面，Seawork 复用已在你机器上安装并认证的智能体提供商。

这样既保留了凭证和执行权在你的环境中，也避免引入独立的纯云端语音栈。

架构

语音 I/O：每个功能独立配置 STT 和 TTS 提供商 (local or openai)
本地语音运行时：默认使用 CPU 执行 ONNX 模型
语音 LLM 编排：使用你配置的提供商运行隐藏智能体会话（claude or codex）
工具路径：用于语音工具和智能体控制的 MCP stdio 桥接

本地语音

本地语音默认使用模型 parakeet-tdt-0.6b-v3-int8 （STT）和 kokoro-en-v0_19 （TTS，说话人 0 / 声音 00）。

缺失的模型会在守护进程启动时下载到 $SEAWORK_HOME/models/local-speech. 。仅下载缺失的文件。

{
  "version": 1,
  "features": {
    "dictation": { "stt": { "provider": "local", "model": "parakeet-tdt-0.6b-v3-int8" } },
    "voiceMode": {
      "llm": { "provider": "claude", "model": "haiku" },
      "stt": { "provider": "local", "model": "parakeet-tdt-0.6b-v3-int8" },
      "tts": { "provider": "local", "model": "kokoro-en-v0_19", "speakerId": 0 }
    }
  },
  "providers": {
    "local": {
      "modelsDir": "~/.seawork/models/local-speech"
    }
  }
}

OpenAI 语音选项

你可以将听写、语音 STT 和 TTS 切换到 OpenAI，只需将提供商字段设置为 openai 并提供 OPENAI_API_KEY。

{
  "version": 1,
  "features": {
    "dictation": { "stt": { "provider": "openai" } },
    "voiceMode": {
      "stt": { "provider": "openai" },
      "tts": { "provider": "openai" }
    }
  },
  "providers": {
    "openai": { "apiKey": "..." }
  }
}

环境变量

OPENAI_API_KEY — OpenAI 语音凭证
SEAWORK_VOICE_LLM_PROVIDER — 语音智能体提供商覆盖
SEAWORK_LOCAL_MODELS_DIR — 本地模型存储目录
SEAWORK_DICTATION_LOCAL_STT_MODEL — 本地听写 STT 模型 ID
SEAWORK_VOICE_LOCAL_STT_MODEL, SEAWORK_VOICE_LOCAL_TTS_MODEL — 本地语音 STT/TTS 模型 ID
SEAWORK_VOICE_LOCAL_TTS_SPEAKER_ID, SEAWORK_VOICE_LOCAL_TTS_SPEED — 可选的本地语音 TTS 调参

使用注意事项

实时语音可以启动和控制智能体。请像对待直接智能体指令一样谨慎对待语音提示，尤其是在指定工作目录或破坏性操作时。