> ## Documentation Index
> Fetch the complete documentation index at: https://ppio.com/docs/llms.txt
> Use this file to discover all available pages before exploring further.

# Fish Audio S2 Pro Text to Speech

Fish Audio S2 Pro 文本转语音模型，将文本转换为自然语音，支持参考音色、采样控制、分段、音频格式和韵律控制。

## 请求头

<ParamField header="Content-Type" type="string" required={true}>
  枚举值: `application/json`
</ParamField>

<ParamField header="Authorization" type="string" required={true}>
  Bearer 身份验证格式，例如：Bearer \{\{API 密钥}}。
</ParamField>

## 请求体

<ParamField body="text" type="string" required={true}>
  需要转换为语音的文本。S2-Pro 多说话人文本可使用 \<|speaker:0|>你好\<|speaker:1|>你好呀 标签。
</ParamField>

<ParamField body="top_p" type="number" default={0.7}>
  核采样多样性控制。

  取值范围：\[0, 1]
</ParamField>

<ParamField body="format" type="string" default="mp3">
  输出音频格式。

  可选值：`wav`, `pcm`, `mp3`, `opus`
</ParamField>

<ParamField body="latency" type="string" default="normal">
  延迟档位。

  可选值：`low`, `normal`, `balanced`
</ParamField>

<ParamField body="prosody" type="object">
  韵律控制。

  <Expandable title="properties" defaultOpen={true}>
    <ParamField body="speed" type="number" default={1}>
      语速倍率。
    </ParamField>

    <ParamField body="volume" type="number" default={0}>
      音量调整。
    </ParamField>

    <ParamField body="normalize_loudness" type="boolean" default={true}>
      是否规范化输出响度。
    </ParamField>
  </Expandable>
</ParamField>

<ParamField body="normalize" type="boolean" default={true}>
  对中英文文本进行规范化。
</ParamField>

<ParamField body="references" type="array">
  用于零样本声音克隆的参考音频样本。

  <Expandable title="properties" defaultOpen={true}>
    <ParamField body="text" type="string">
      参考音频对应文本。
    </ParamField>

    <ParamField body="audio" type="string">
      参考音频，按供应商支持传入 base64 或 URL。
    </ParamField>
  </Expandable>
</ParamField>

<ParamField body="mp3_bitrate" type="integer" default={128}>
  MP3 比特率，单位 kbps。

  可选值：`64`, `128`, `192`
</ParamField>

<ParamField body="sample_rate" type="integer" nullable={true}>
  输出采样率 Hz。为空时使用格式默认值，opus 为 48000 Hz，其他通常为 44100 Hz。
</ParamField>

<ParamField body="temperature" type="number" default={0.7}>
  表现力控制。

  取值范围：\[0, 1]
</ParamField>

<ParamField body="chunk_length" type="integer" default={300}>
  文本分段大小。

  取值范围：\[100, 300]
</ParamField>

<ParamField body="opus_bitrate" type="integer" default={-1000}>
  Opus 比特率，单位 bps，-1000 表示自动。

  可选值：`-1000`, `24000`, `32000`, `48000`, `64000`
</ParamField>

<ParamField body="reference_id" type="string">
  音色模型 ID；多说话人场景可传入与 speaker 索引匹配的数组。
</ParamField>

<ParamField body="max_new_tokens" type="integer" default={1024}>
  每个分段的最大音频 token 数。
</ParamField>

<ParamField body="min_chunk_length" type="integer" default={50}>
  分段前的最小字符数。

  取值范围：\[0, 100]
</ParamField>

<ParamField body="repetition_penalty" type="number" default={1.2}>
  降低音频模式重复的惩罚系数。
</ParamField>

<ParamField body="early_stop_threshold" type="number" default={1}>
  提前停止阈值。

  取值范围：\[0, 1]
</ParamField>

<ParamField body="condition_on_previous_chunks" type="boolean" default={true}>
  使用前序音频分段作为上下文。
</ParamField>

## 响应

生成的音频。

格式：`binary`
