Providers

Deepgram

Deepgram è un'API di speech-to-text. In OmeniaClaw viene usata per la trascrizione in ingresso di audio/note vocali tramite tools.media.audio e per la STT in streaming di Voice Call tramite plugins.entries.voice-call.config.streaming.

Per la trascrizione batch, OmeniaClaw carica il file audio completo su Deepgram e inietta la trascrizione nella pipeline di risposta ({{Transcript}} + blocco [Audio]). Per la trascrizione in streaming di Voice Call, OmeniaClaw inoltra frame live G.711 u-law tramite l'endpoint WebSocket listen di Deepgram ed emette trascrizioni parziali o finali man mano che Deepgram le restituisce.

Dettaglio Valore
Sito web deepgram.com
Documentazione developers.deepgram.com
Autenticazione DEEPGRAM_API_KEY
Modello predefinito nova-3

Per iniziare

  • Imposta la tua chiave API

    Aggiungi la tua chiave API Deepgram all'ambiente:

    Code
    DEEPGRAM_API_KEY=dg_...
  • Abilita il provider audio

    json5
    {  tools: {    media: {      audio: {        enabled: true,        models: [{ provider: "deepgram", model: "nova-3" }],      },    },  },}
  • Invia una nota vocale

    Invia un messaggio audio tramite qualsiasi canale collegato. OmeniaClaw lo trascrive tramite Deepgram e inietta la trascrizione nella pipeline di risposta.

  • Opzioni di configurazione

    Opzione Percorso Descrizione
    model tools.media.audio.models[].model Id modello Deepgram (predefinito: nova-3)
    language tools.media.audio.models[].language Suggerimento lingua (facoltativo)
    detect_language tools.media.audio.providerOptions.deepgram.detect_language Abilita il rilevamento della lingua (facoltativo)
    punctuate tools.media.audio.providerOptions.deepgram.punctuate Abilita la punteggiatura (facoltativo)
    smart_format tools.media.audio.providerOptions.deepgram.smart_format Abilita la formattazione intelligente (facoltativo)

    Con suggerimento lingua

    json5
    {  tools: {    media: {      audio: {        enabled: true,        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],      },    },  },}

    Con opzioni Deepgram

    json5
    {  tools: {    media: {      audio: {        enabled: true,        providerOptions: {          deepgram: {            detect_language: true,            punctuate: true,            smart_format: true,          },        },        models: [{ provider: "deepgram", model: "nova-3" }],      },    },  },}

    STT in streaming di Voice Call

    Il Plugin incluso deepgram registra anche un provider di trascrizione realtime per il Plugin Voice Call.

    Impostazione Percorso di configurazione Predefinito
    Chiave API plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey Usa DEEPGRAM_API_KEY come fallback
    Modello ...deepgram.model nova-3
    Lingua ...deepgram.language (non impostata)
    Encoding ...deepgram.encoding mulaw
    Frequenza di campionamento ...deepgram.sampleRate 8000
    Endpointing ...deepgram.endpointingMs 800
    Risultati intermedi ...deepgram.interimResults true
    json5
    {  plugins: {    entries: {      "voice-call": {        config: {          streaming: {            enabled: true,            provider: "deepgram",            providers: {              deepgram: {                apiKey: "${DEEPGRAM_API_KEY}",                model: "nova-3",                endpointingMs: 800,                language: "en-US",              },            },          },        },      },    },  },}

    Note

    Autenticazione

    L'autenticazione segue l'ordine standard di autenticazione del provider. DEEPGRAM_API_KEY è il percorso più semplice.

    Proxy ed endpoint personalizzati

    Sovrascrivi endpoint o header con tools.media.audio.baseUrl e tools.media.audio.headers quando usi un proxy.

    Comportamento dell'output

    L'output segue le stesse regole audio degli altri provider (limiti di dimensione, timeout, iniezione della trascrizione).

    Correlati

    Was this useful?
    On this page

    On this page