Voice - Neotask by Neotask Documentation | Neotask
Röst
Översikt
Open Claw stöder röstinteraktion via flera system: vakningsordsdetektering, kontinuerliga röstkonversationer (talläge) och text-till-tal för talade svar.
Vakningsord
Swabble (macOS)
Swabble är en inbyggd macOS-demon som tillhandahåller alltid-aktiverad, lokal vakningsordsdetektering via Apples Speech.framework.
Funktioner:
Lokal bearbetning enbart — inget ljud lämnar din enhet under vakningsordsdetektering
Standard vakningsord: clawd (med alias claude)
Anpassningsbara vakningsord
Kontinuerlig ljudfångst och transkription
Krokoköring — utlöser skalkommandon när vakningsordet detekteras
Filtranskription — konvertera ljudfiler till text (TXT- eller SRT-format)
Konfigurerbar nedkylning, minsta teckenantal och tidsgränsHur det fungerar:
Swabble lyssnar kontinuerligt med hjälp av systemmikrofonen
När det detekterar vakningsordet i talad text fångar det efterföljande tal
Den fångade texten skickas till din agent via ett konfigurerat krokokommando
Agenten bearbetar röstkommandot och svararNodvakningsord
På iOS- och Android-följappar hanteras röstvakningsord inbyggt:
Vakningordskonfiguration ägs av Gateway
Noder tar emot vakningordskonfiguration vid anslutning
Detektering använder plattformsinbyggd taligenkänningTalläge
Talläget möjliggör kontinuerliga röstkonversationer — tala naturligt och hör din agent svara.
Hur det fungerar
Tal till text — Din röst transkriberas i realtid (Deepgram-strömning eller plattformsinbyggd STT)
Agentbearbetning — Den transkriberade texten skickas till din agent som ett vanligt meddelande
Text till tal — Agentens svar talas upp för digRöststatus-maskin
Talläget övergår mellan fyra tillstånd:
| Tillstånd | Beskrivning |
|-------|-------------|
| Inaktiv | Lyssnar inte aktivt |
| Lyssnar | Fångar och transkriberar ditt tal |
| Tänker | Agenten bearbetar din begäran |
| Talar — | Agentsvarets talas upp |
Text-till-tal-leverantörer
| Leverantör | Beskrivning |
|----------|-------------|
| ElevenLabs | Högkvalitativ röstsyntes med röstval |
| OpenAI TTS | OpenAIs text-till-tal-API |
Röstpreferenser
Röstval — Välj bland tillgängliga TTS-röster
Anpassad systemprompt — Åsidosätt agentens personlighet för röstläge
Anpassat svarsformat — Styr hur agenten formaterar talade svar
Språkstöd — Röststrängar lokaliserade för 18+ språkRöstkommandon
Flerintentionsdetektering
Agenter kan detektera och köra flerstegsröstkommandon:
> "Create a calendar event for tomorrow at 3 PM, then send an email to the team about it, and post a reminder in Slack"
Detta parsas automatiskt till en sekvens av kommandon, var och en körd i ordning med resultaten som flödar till nästa steg.
Verktygsexekvering
Under röstkonversationer kan agenter köra verktyg precis som i textkonversationer — surfa på webben, kör kod, hantera filer, styr enheter och mer. Resultaten sammanfattas och talas upp.
Handlingssanningskontroll
Röstläget inkluderar validering att agentpåståenden matchar faktiska verktygsutfall. Om en agent säger "Jag har skickat e-postmeddelandet" men e-postverktyget misslyckades fångar systemet avvikelsen och rapporterar det faktiska resultatet.
Röstsamtal (Plug-in)
Röstsamtal-plug-inet lägger till SIP-telefonistöd:
Hantering av inkommande samtal
Utgående samtal (leverantörsberoende)
Realtids dubbelriktad ljud (PCM-strömmar)
TTS-syntes injicerad i samtalsljudetKvothantering
Röststjänster kan ha användningskvoter:
Månadsvis minutallokering för TTS + STT
Per-session-spårning
Varning vid 80 % användning
Automatisk avstängning vid kvotgräns
View full documentation