> ## Documentation Index > Fetch the complete documentation index at: https://ppio.com/docs/llms.txt > Use this file to discover all available pages before exploring further. # Fish Audio S2 Pro Text to Speech Fish Audio S2 Pro 文本转语音模型，将文本转换为自然语音，支持参考音色、采样控制、分段、音频格式和韵律控制。 ## 请求头枚举值: `application/json` Bearer 身份验证格式，例如：Bearer \{\{API 密钥}}。 ## 请求体需要转换为语音的文本。S2-Pro 多说话人文本可使用 \<|speaker:0|>你好\<|speaker:1|>你好呀标签。核采样多样性控制。取值范围：\[0, 1] 输出音频格式。可选值：`wav`, `pcm`, `mp3`, `opus` 延迟档位。可选值：`low`, `normal`, `balanced` 韵律控制。语速倍率。音量调整。是否规范化输出响度。对中英文文本进行规范化。用于零样本声音克隆的参考音频样本。参考音频对应文本。参考音频，按供应商支持传入 base64 或 URL。 MP3 比特率，单位 kbps。可选值：`64`, `128`, `192` 输出采样率 Hz。为空时使用格式默认值，opus 为 48000 Hz，其他通常为 44100 Hz。表现力控制。取值范围：\[0, 1] 文本分段大小。取值范围：\[100, 300] Opus 比特率，单位 bps，-1000 表示自动。可选值：`-1000`, `24000`, `32000`, `48000`, `64000` 音色模型 ID；多说话人场景可传入与 speaker 索引匹配的数组。每个分段的最大音频 token 数。分段前的最小字符数。取值范围：\[0, 100] 降低音频模式重复的惩罚系数。提前停止阈值。取值范围：\[0, 1] 使用前序音频分段作为上下文。 ## 响应生成的音频。格式：`binary`