1. 豆包
mixrouter
  • mixrouter
    • mixrouter接口说明
    • 已支持的模型列表
    • 大模型官方文档
    • 已支持的模型列表
      • 语言大模型
        • OpenAI
          • gpt-4
          • gpt-4.1
          • gpt-4o
          • gpt-4o-mini
          • gpt-5
          • gpt-5-chat
          • gpt-5-mini
          • gpt-5-nano
          • gpt-5.1
          • gpt-5.1-chat-latest
          • gpt-5.1-codex(仅支持/v1/responses)
          • gpt-5.2
          • gpt-5.2-chat
          • gpt-5.2-pro(仅支持/v1/responses)
          • gpt-oss-120b
          • o1
          • o3
          • o3-mini
          • o3-deep-research
          • o3-pro
          • o4-mini
          • o4-mini-deep-research
        • Google
          • gemini-2.0-flash
          • gemini-2.5-computer-use-preview-10-2025
          • gemini-2.5-flash
          • gemini-2.5-flash-lite
          • gemini-2.5-flash-lite-preview
          • gemini-2.5-pro
          • gemini-3-flash-preview
          • gemini-3-pro-preview
          • gemini-robotics-er-1.5-preview
        • Anthropic
          • 通用接口
          • claude-opus-4-5-20251101
          • claude-opus-4-20250514
          • claude-sonnet-4-20250514
          • claude-sonnet-4-5-20250929
        • DeepSeek
          • deepseek-chat
          • deepseek-reasoner
        • MiniMax
          • minimax-m2.5
          • abab6.5s-chat
          • minimax-m2
        • Moonshot
          • kimi-k2
          • kimi-k2-0711-preview
          • kimi-k2-0905
          • kimi-k2-instruct
          • kimi-k2-thinking
          • moonshot-v1-128k
          • moonshot-v1-32k
          • moonshot-v1-8k
          • moonshot-v1-128k-vision-preview
          • moonshot-v1-32k-vision-preview
          • moonshot-v1-8k-vision-preview
        • xAI
          • grok-4
          • grok-4-1-fast-non-reasoning
          • grok-4-1-fast-reasoning
        • 字节跳动
          • 通用接口
        • 智谱
          • glm-5
          • glm-4-plus
          • glm-4.5
          • glm-4.6
          • glm-4.7
        • 阿里巴巴
          • qwen3.5-122b-a10b(多模态)
          • qwen3.5-397b-a17b(多模态)
          • qwen-max
          • qwen-max-2025-01-25
          • qwen-max-latest
          • qwen-plus
          • qwen-plus-latest
          • qwen-turbo
          • qwen2.5-7b-instruct
          • qwen2.5-32b-instruct
          • qwen2.5-72b-instruct
          • qwen3-coder-plus
          • qwen3-coder-plus-2025-07-22
          • qwen3-max
          • qwen3-max-preview
          • qwen3-235b-a22b
          • qwen3-235b-a22b-instruct-2507
          • qwen3-235b-a22b-thinking-2507
          • qwen3-8b
          • qwen3-coder-30b-a3b-instruct
          • qwen3-next-80b-a3b-instruct
          • qwen3-next-80b-a3b-thinking
          • qwen-vl-max(视觉理解)
          • qwen-vl-plus(视觉理解)
          • qwen3-vl-235b-a22b-instruct(视觉理解)
          • qwen3-vl-235b-a22b-thinking(视觉理解)
        • 百度
          • ernie-x1-32k
        • 腾讯
          • hunyuan-t1-latest
        • 讯飞
          • SparkDesk-v4.0
        • 蚂蚁
          • Ling-1T
          • Ring-1T
        • 阶跃星辰
          • step-3
      • 图片生成
        • 通用接口
          • 图片生成
          • 图片编辑
        • OpenAI
          • gpt-image系列图片生成
          • gpt-image系列图片编辑
          • dall-e-3图片生成
        • Google
          • gemini-3-pro-image-preview(google格式)
          • gemini-2.5-flash-image
          • gemini-2.5-flash-image-preview
          • gemini-3-pro-image-preview
        • Anthropic
        • BFL
          • flux-1-kontext-pro
        • ImagineArt
          • imagineart-1.5-preview
      • 音视频处理
        • OpenAI
          • gpt-4o-audio-preview
          • gpt-audio
        • 阿里巴巴
          • qwen3-tts-flash
        • Elevenlabs
          • eleven_v3
        • MiniMax
          • 通用接口
      • 视频生成
        • Vidu
          • vidu-2.0-img2video
          • viduq2-pro提交图生视频任务
        • 字节跳动
          • 提交图生视频生成任务
          • 提交文生视频生成任务
        • 快手
          • 提交图生视频任务
          • 提交文生视频任务
        • 腾讯
          • hunyuan-video-v1.5
        • 海螺
          • 提交图生视频任务
          • 提交文生视频任务
        • sora
          • sora-2
          • sora-2-pro
        • Google
          • veo-3.1-generate-preview
          • veo-3.1-fast-generate-preview
        • 阿里巴巴
          • wan2.6-i2v
          • wan2.6-t2v
        • pixverse
          • pixverse-v5.5-t2v
          • pixverse-v5.5-i2v
      • 多模态模型
        • 智谱
          • glm-4.5v
          • glm-4.6v
        • 阿里巴巴
          • qwen2.5-omni-7b
          • qwen2.5-vl-72b-instruct
          • qwen3-omni-flash-2025-12-01
        • 日日新
          • SenseNova-V6-Pro
      • Realtime
        • OpenAI
          • gpt-4o-mini-realtime-preview
          • gpt-4o-realtime-preview
      • 向量化
        • OpenAI
          • text-embedding-3-large
          • text-embedding-3-small
          • text-embedding-ada-002
          • text-embedding-v1
    • 已支持的搜索服务
      • serper
        • get方式
        • post方式
    • gemini
      • openai格式
        • gemini-开启thinking
        • chat/completions
      • google原生格式
        • google格式
        • gemini-robotics-er-1.5-preview
    • anthropic
      • anthropic格式
        • tools调用
        • thinking
        • image理解
        • code_execution
      • openai格式
      • openai格式
      • anthropic格式
    • openai
      • gpt-5.2
      • openai格式
      • responses
    • deepseek
      • chat/completions
    • qwen
      • chat/completions(开启thinking)
      • 流式/chat/completions
      • qwen提交图生视频任务
    • 豆包
      • 豆包端到端实时语音
      • chat/completions
        POST
      • qwen提交文生视频任务
        POST
      • 获取视频生成任务结果
        GET
    • 获取异步任务结果
      GET
  • mixrouter
    • qwen3.5-122b-a10b(多模态)
      POST
  1. 豆包

豆包端到端实时语音

豆包端到端实时语音大模型 API 对接文档#

接口概述#

/v1/realtime/volcengine/dialogue 提供豆包(Doubao)端到端实时语音大模型的 WebSocket 代理接入。客户端通过本接口与豆包 Realtime API 进行实时语音/文本对话,网关完全透传豆包的二进制协议帧,同时实现鉴权、渠道路由、用量计费和日志记录。

1. 官方文档#

https://www.volcengine.com/docs/6561/1594356?lang=zh

2. 接口说明#

2.1 连接地址#

wss://{gateway_host}/v1/realtime/volcengine/dialogue?model=doubao-realtime
参数必须说明
model是模型名称,用于渠道路由匹配(当前只能是 doubao-realtime)

2.2 鉴权方式#

支持以下任一方式传递 API Key:
方式一:Authorization Header(推荐)
Authorization: Bearer sk-your-token-key
方式二:Sec-WebSocket-Protocol(浏览器场景)

2.3 协议说明#

本接口完全透传豆包的二进制 WebSocket 协议。客户端按照豆包官方文档构建和解析二进制帧即可,网关不对协议内容做任何修改。

3. 二进制协议概要#

每个 WebSocket 帧由 Header(4字节) + Optional 字段 + Payload 组成。

3.1 Header 结构#

字节高 4 位低 4 位说明
0Protocol VersionHeader Size固定 0x11(v1, 4字节头)
1Message TypeFlags见下表
2SerializationCompressionJSON=0x10, Raw=0x00, 无压缩
3ReservedReserved固定 0x00

3.2 Message Type#

值名称说明
0b0001FullClient客户端发送文本事件
0b0010AudioOnlyClient客户端发送音频数据
0b1001FullServer服务端返回文本事件
0b1011AudioOnlyServer服务端返回音频数据
0b1111Error错误信息

3.3 Flags#

值含义
0b0000无 sequence
0b0001带正 sequence
0b0011带负 sequence(最后一包)
0b0100带 event ID

3.4 Optional 字段(当 flags 包含 event 时)#

按顺序排列:
1.
Event ID(4 字节 int32,大端序)
2.
Session ID(4 字节长度 + N 字节内容)— 连接级事件(1,2,50,51,52)跳过
3.
Connect ID(4 字节长度 + N 字节内容)— 仅事件 50,51,52 携带

3.5 Payload#

4 字节长度(uint32 大端序)+ N 字节内容(JSON 或 raw 音频数据)。

4. 交互流程#

客户端                              网关                              豆包上游
  |                                  |                                  |
  |--- WebSocket Upgrade ----------->|                                  |
  |                                  |--- WebSocket Connect ----------->|
  |                                  |    (X-Api-App-ID, Access-Key)    |
  |                                  |                                  |
  |--- StartConnection (event=1) --->|-------- 透传 ------------------>|
  |<-- ConnectionStarted (event=50) -|<------- 透传 -------------------|
  |                                  |                                  |
  |--- StartSession (event=100) ---->|-------- 透传 ------------------>|
  |    (tts/asr/dialog config)       |                                  |
  |<-- SessionStarted (event=150) ---|<------- 透传 -------------------|
  |                                  |                                  |
  |--- TaskRequest (event=200) ----->|-------- 透传 ------------------>|
  |    (audio PCM data)              |                                  |
  |<-- ASRResponse (event=451) ------|<------- 透传 -------------------|
  |<-- ChatResponse (event=550) -----|<------- 透传 -------------------|
  |<-- TTSResponse (event=352) ------|<------- 透传 -------------------|
  |<-- UsageResponse (event=154) ----|<------- 透传 + 解析计费 --------|
  |                                  |                                  |
  |--- FinishSession (event=102) --->|-------- 透传 ------------------>|
  |<-- SessionFinished (event=152) --|<------- 透传 -------------------|
  |                                  |                                  |
  |--- FinishConnection (event=2) -->|-------- 透传 ------------------>|
  |<-- ConnectionFinished (event=52) |<------- 透传 -------------------|
  |                                  |                                  |
  |                                  |--- 记录消费日志 (logs 表) -------|

5. 客户端事件#

Event ID名称Payload说明
1StartConnection{}建立连接
2FinishConnection{}断开连接
100StartSessionJSON(见下方)创建会话
102FinishSession{}结束会话
200TaskRequest音频二进制数据上传音频(PCM, 16kHz, int16, 单声道)
201UpdateConfigJSON更新会话配置
300SayHello{"content": "..."}发送问候语
400EndASR{}音频输入结束信号(按键模式)
500ChatTTSText{"start":bool,"content":"...","end":bool}指定文本合成音频
501ChatTextQuery{"content": "..."}发送文本 query
502ChatRAGText{"external_rag": "..."}外部 RAG 知识输入

5.1 StartSession Payload 示例#

{
  "tts": {
    "speaker": "zh_female_vv_jupiter_bigtts",
    "audio_config": {
      "channel": 1,
      "format": "pcm",
      "sample_rate": 24000
    }
  },
  "asr": {
    "extra": {
      "end_smooth_window_ms": 1500
    }
  },
  "dialog": {
    "bot_name": "豆包",
    "system_role": "你是一个有帮助的助手。",
    "speaking_style": "说话简洁明了。",
    "extra": {
      "strict_audit": false,
      "input_mod": "audio",
      "model": "1.2.1.1"
    }
  }
}
dialog.extra.model 必传,取值:
1.2.1.1 — O2.0 版本
2.2.0.0 — SC2.0 版本
input_mod 取值:
audio — 麦克风实时输入(默认)
text — 纯文本输入
audio_file — 录音文件输入
keep_alive — 麦克风含静音按键
push_to_talk — 按键说话
tts.audio_config.format 取值:
pcm — 32bit float LE, 24kHz(默认)
pcm_s16le — 16bit signed int LE, 24kHz

6. 服务端事件#

Event ID名称说明
50ConnectionStarted连接建立成功
51ConnectionFailed连接失败
52ConnectionFinished连接结束
150SessionStarted会话创建成功,返回 dialog_id
152SessionFinished会话结束
153SessionFailed会话失败
154UsageResponse用量信息(每轮对话后返回)
350TTSSentenceStartTTS 句子开始
351TTSSentenceEndTTS 句子结束
352TTSResponseTTS 音频数据(AudioOnlyServer 类型)
359TTSEnded一轮音频合成结束
450ASRInfo检测到用户说话
451ASRResponse语音识别结果
459ASREnded用户说话结束
550ChatResponse模型文本回复
559ChatEnded模型回复结束
599DialogCommonError对话错误

6.1 UsageResponse Payload#

{
  "usage": {
    "input_text_tokens": 1032,
    "input_audio_tokens": 548,
    "cached_text_tokens": 943,
    "cached_audio_tokens": 110,
    "output_text_tokens": 10,
    "output_audio_tokens": 52
  }
}

7. 代码示例#

7.1 Go 客户端#

7.2 Python 客户端#

7.3 浏览器调试页面#

项目提供了 Web 调试页面,位于 py/doubao_realtime/:
支持麦克风语音输入和文本输入两种模式,实时显示所有事件日志。

8. 可用音色#

O / O2.0 版本精品音色#

音色 ID说明
zh_female_vv_jupiter_bigttsvv,活泼灵动女声(默认)
zh_female_xiaohe_jupiter_bigttsxiaohe,甜美活泼女声
zh_male_yunzhou_jupiter_bigttsyunzhou,清爽沉稳男声
zh_male_xiaotian_jupiter_bigttsxiaotian,清爽磁性男声

SC / SC2.0 版本克隆音色#

SC 版本使用 ICL_ 前缀,SC2.0 版本使用 saturn_ 前缀。详见豆包官方文档。

9. 错误码#

错误码说明
42000020StartSession 参数缺失(asr.extra 或 tts.extra 为空)
45000003超过 10 分钟无交互,服务端断开
50000000模型推理出错
52000042音频流超时,建议设置 input_mod: keep_alive
55000001未正常发送 FinishSession

10. 注意事项#

1.
音频输入格式:PCM, 单声道, 16kHz, int16, 小端序。推荐 20ms 一包(640 字节)发送。
2.
Session 复用:发送 FinishSession 后可复用 WebSocket 连接,重新发送 StartSession 开始新会话。
3.
model 字段必传:dialog.extra.model 必须在 StartSession 中指定,1.2.1.1(O2.0)或 2.2.0.0(SC2.0)。
4.
断开连接:建议按 FinishSession → FinishConnection → Close WebSocket 顺序断开,避免上游报错。
5.
计费说明:网关从上游 UsageResponse(event=154) 事件中实时提取 token 用量进行计费,每轮对话结束后上游会返回该事件。
Modified at 2026-04-17 07:26:08
Previous
qwen提交图生视频任务
Next
chat/completions
Built with