SeaworkSeawork

语音

Seawork 对听写和与编程环境的实时对话提供一流的语音支持。

设计理念

语音采用本地优先原则。你可以完全在设备上运行语音,也可以选择 OpenAI 提供语音功能。语音推理/编排方面,Seawork 复用已在你机器上安装并认证的智能体提供商。

这样既保留了凭证和执行权在你的环境中,也避免引入独立的纯云端语音栈。

架构

  • 语音 I/O:每个功能独立配置 STT 和 TTS 提供商 (local or openai)
  • 本地语音运行时:默认使用 CPU 执行 ONNX 模型
  • 语音 LLM 编排:使用你配置的提供商运行隐藏智能体会话(claude or codex
  • 工具路径:用于语音工具和智能体控制的 MCP stdio 桥接

本地语音

本地语音默认使用模型 parakeet-tdt-0.6b-v3-int8 (STT)和 kokoro-en-v0_19 (TTS,说话人 0 / 声音 00)。

缺失的模型会在守护进程启动时下载到 $SEAWORK_HOME/models/local-speech. 。仅下载缺失的文件。

{
  "version": 1,
  "features": {
    "dictation": { "stt": { "provider": "local", "model": "parakeet-tdt-0.6b-v3-int8" } },
    "voiceMode": {
      "llm": { "provider": "claude", "model": "haiku" },
      "stt": { "provider": "local", "model": "parakeet-tdt-0.6b-v3-int8" },
      "tts": { "provider": "local", "model": "kokoro-en-v0_19", "speakerId": 0 }
    }
  },
  "providers": {
    "local": {
      "modelsDir": "~/.seawork/models/local-speech"
    }
  }
}

OpenAI 语音选项

你可以将听写、语音 STT 和 TTS 切换到 OpenAI,只需将提供商字段设置为 openai 并提供 OPENAI_API_KEY

{
  "version": 1,
  "features": {
    "dictation": { "stt": { "provider": "openai" } },
    "voiceMode": {
      "stt": { "provider": "openai" },
      "tts": { "provider": "openai" }
    }
  },
  "providers": {
    "openai": { "apiKey": "..." }
  }
}

环境变量

  • OPENAI_API_KEYOpenAI 语音凭证
  • SEAWORK_VOICE_LLM_PROVIDER语音智能体提供商覆盖
  • SEAWORK_LOCAL_MODELS_DIR本地模型存储目录
  • SEAWORK_DICTATION_LOCAL_STT_MODEL本地听写 STT 模型 ID
  • SEAWORK_VOICE_LOCAL_STT_MODEL, SEAWORK_VOICE_LOCAL_TTS_MODEL本地语音 STT/TTS 模型 ID
  • SEAWORK_VOICE_LOCAL_TTS_SPEAKER_ID, SEAWORK_VOICE_LOCAL_TTS_SPEED可选的本地语音 TTS 调参

使用注意事项

实时语音可以启动和控制智能体。请像对待直接智能体指令一样谨慎对待语音提示,尤其是在指定工作目录或破坏性操作时。