Voice - Neotask by Neotask Documentation | Neotask

Röst

Översikt

Open Claw stöder röstinteraktion via flera system: vakningsordsdetektering, kontinuerliga röstkonversationer (talläge) och text-till-tal för talade svar.

Vakningsord

Swabble (macOS)

Swabble är en inbyggd macOS-demon som tillhandahåller alltid-aktiverad, lokal vakningsordsdetektering via Apples Speech.framework.

Funktioner:

Lokal bearbetning enbart — inget ljud lämnar din enhet under vakningsordsdetektering

Standard vakningsord: clawd (med alias claude)

Anpassningsbara vakningsord

Kontinuerlig ljudfångst och transkription

Krokoköring — utlöser skalkommandon när vakningsordet detekteras

Filtranskription — konvertera ljudfiler till text (TXT- eller SRT-format)

Konfigurerbar nedkylning, minsta teckenantal och tidsgräns

Hur det fungerar:

Swabble lyssnar kontinuerligt med hjälp av systemmikrofonen

När det detekterar vakningsordet i talad text fångar det efterföljande tal

Den fångade texten skickas till din agent via ett konfigurerat krokokommando

Agenten bearbetar röstkommandot och svarar

Nodvakningsord

På iOS- och Android-följappar hanteras röstvakningsord inbyggt:

Vakningordskonfiguration ägs av Gateway

Noder tar emot vakningordskonfiguration vid anslutning

Detektering använder plattformsinbyggd taligenkänning

Talläge

Talläget möjliggör kontinuerliga röstkonversationer — tala naturligt och hör din agent svara.

Hur det fungerar

Tal till text — Din röst transkriberas i realtid (Deepgram-strömning eller plattformsinbyggd STT)

Agentbearbetning — Den transkriberade texten skickas till din agent som ett vanligt meddelande

Text till tal — Agentens svar talas upp för dig

Röststatus-maskin

Talläget övergår mellan fyra tillstånd:

| Tillstånd | Beskrivning | |-------|-------------| | Inaktiv | Lyssnar inte aktivt | | Lyssnar | Fångar och transkriberar ditt tal | | Tänker | Agenten bearbetar din begäran | | Talar — | Agentsvarets talas upp |

Text-till-tal-leverantörer

| Leverantör | Beskrivning | |----------|-------------| | ElevenLabs | Högkvalitativ röstsyntes med röstval | | OpenAI TTS | OpenAIs text-till-tal-API |

Röstpreferenser

Röstval — Välj bland tillgängliga TTS-röster

Anpassad systemprompt — Åsidosätt agentens personlighet för röstläge

Anpassat svarsformat — Styr hur agenten formaterar talade svar

Språkstöd — Röststrängar lokaliserade för 18+ språk

Röstkommandon

Flerintentionsdetektering

Agenter kan detektera och köra flerstegsröstkommandon:

> "Create a calendar event for tomorrow at 3 PM, then send an email to the team about it, and post a reminder in Slack"

Detta parsas automatiskt till en sekvens av kommandon, var och en körd i ordning med resultaten som flödar till nästa steg.

Verktygsexekvering

Under röstkonversationer kan agenter köra verktyg precis som i textkonversationer — surfa på webben, kör kod, hantera filer, styr enheter och mer. Resultaten sammanfattas och talas upp.

Handlingssanningskontroll

Röstläget inkluderar validering att agentpåståenden matchar faktiska verktygsutfall. Om en agent säger "Jag har skickat e-postmeddelandet" men e-postverktyget misslyckades fångar systemet avvikelsen och rapporterar det faktiska resultatet.

Röstsamtal (Plug-in)

Röstsamtal-plug-inet lägger till SIP-telefonistöd:

Hantering av inkommande samtal

Utgående samtal (leverantörsberoende)

Realtids dubbelriktad ljud (PCM-strömmar)

TTS-syntes injicerad i samtalsljudet

Kvothantering

Röststjänster kan ha användningskvoter:

Månadsvis minutallokering för TTS + STT

Per-session-spårning

Varning vid 80 % användning

Automatisk avstängning vid kvotgräns

View full documentation