Multimodal Audio

Lunos supports two audio workflows:

Audio input: send audio to models for transcription, analysis, or extraction
Audio output: request spoken responses from models that support audio output

Endpoint

POST /v1/chat/completions

Authentication

Authorization: Bearer YOUR_SECRET_KEY
Content-Type: application/json

Audio input

Use input_audio in messages[].content[].

Audio data must be base64. Direct audio URLs are not supported in this format.

Content shape:

{
  "type": "input_audio",
  "input_audio": {
    "data": "<BASE64_AUDIO_DATA>",
    "format": "wav"
  }
}

Send audio input

cURL Python TypeScript

curl -X POST "https://api.lunos.tech/v1/chat/completions" \
  -H "Authorization: Bearer YOUR_SECRET_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemini-2.5-flash",
    "messages": [
      {
        "role": "user",
        "content": [
          { "type": "text", "text": "Please transcribe this audio file." },
          {
            "type": "input_audio",
            "input_audio": {
              "data": "<BASE64_AUDIO_DATA>",
              "format": "wav"
            }
          }
        ]
      }
    ]
  }'

import base64
import requests

with open("audio.wav", "rb") as f:
    b64_audio = base64.b64encode(f.read()).decode("utf-8")

payload = {
    "model": "google/gemini-2.5-flash",
    "messages": [
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Please transcribe this audio file."},
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": b64_audio,
                        "format": "wav",
                    },
                },
            ],
        }
    ],
}
response = requests.post(
    "https://api.lunos.tech/v1/chat/completions",
    headers={
        "Authorization": "Bearer YOUR_SECRET_KEY",
        "Content-Type": "application/json",
    },
    json=payload,
)
print(response.json())

import fs from "node:fs/promises";

const audioBytes = await fs.readFile("audio.wav");
const base64Audio = audioBytes.toString("base64");

const response = await fetch("https://api.lunos.tech/v1/chat/completions", {
  method: "POST",
  headers: {
    Authorization: "Bearer YOUR_SECRET_KEY",
    "Content-Type": "application/json",
  },
  body: JSON.stringify({
    model: "google/gemini-2.5-flash",
    messages: [
      {
        role: "user",
        content: [
          { type: "text", text: "Please transcribe this audio file." },
          {
            type: "input_audio",
            input_audio: {
              data: base64Audio,
              format: "wav",
            },
          },
        ],
      },
    ],
  }),
});
console.log(await response.json());

Common input formats

Supported formats depend on provider/model. Common values: wav, mp3, aiff, aac, ogg, flac, m4a, pcm16, pcm24.

Audio output

To receive spoken output, set:

modalities: ["text", "audio"]
audio config (voice, format)
stream: true

Request audio output