Een AI Voice Agent is een realtime pipeline van telefonie-ingress, spraakherkenning (STT), taalbegrip en dialoogbeheer (NLU/LLM), function calling, spraaksynthese (TTS) en human handover. Deze pagina beschrijft de architectuur, de voice-flow, de componenten, de overdracht naar een mens en de integraties — technisch en volledig.
Architectuuroverzicht
Een AI Voice Agent koppelt de bestaande telefonie van een organisatie aan een realtime spraak-AI-pipeline, met een menselijke medewerker als achtervang.
De agent draait als laag bóvenop de bestaande telefonie-infrastructuur: er hoeft geen nummer of telefoniecontract te wijzigen. Inkomende audio wordt via SIP/VoIP naar de pipeline geleid, daar realtime verwerkt en als spraak teruggegeven aan de beller. Een orchestratielaag bewaakt de beurtwisseling (turn-taking), roept tools aan voor concrete acties en beslist wanneer een mens wordt ingeschakeld.
ContactOns levert hierin de managed-laag: het inrichten, trainen, koppelen, testen en doorlopend optimaliseren van deze keten — niet alleen de software.
De voice-flow, stap voor stap
Eén beurt in het gesprek doorloopt een vaste keten, doorgaans in een fractie van een seconde per stap.
Inkomend gesprek (ingress): de beller belt het bestaande nummer; het gesprek komt via SIP/VoIP de pipeline binnen. DTMF (toetstonen) kan worden herkend voor keuzemenu's.
Spraak naar tekst (STT): streaming spraakherkenning zet het gesprokene realtime om in tekst, met endpointing om te bepalen wanneer de beller is uitgesproken.
Taalbegrip & dialoogbeheer (NLU/LLM): de agent bepaalt intentie en relevante gegevens, houdt de gesprekscontext vast en kiest de volgende stap: antwoorden, een actie uitvoeren, of overdragen.
Kennis & acties: waar nodig haalt de agent antwoorden uit een gecontroleerde kennisbron (RAG) en voert hij acties uit via function calling (bijvoorbeeld een afspraak inplannen of een status opzoeken).
Tekst naar spraak (TTS): het antwoord wordt omgezet in een natuurlijke Nederlandse stem en teruggespeeld; barge-in laat de beller onderbreken.
Afronden of overdragen: de beurt sluit af, het gesprek gaat verder, of er volgt human handover naar een medewerker.
Na afloop wordt het gesprek vastgelegd als transcript en samenvatting — de basis voor optimalisatie en voor de overdracht naar een mens.
Componenten
De pipeline bestaat uit losse, vervangbare bouwstenen — daardoor is de oplossing platform- en leveranciersonafhankelijk.
Ingress
Telefonie-laag (SIP/VoIP)
Koppelt de pipeline aan de bestaande telefonie. Behandelt media (RTP), DTMF en doorverbinden.
Perceptie
Spraakherkenning (STT)
Realtime, streaming omzetting van spraak naar tekst met VAD/endpointing en ruisrobuustheid.
Begrip
NLU & LLM-dialoogbeheer
Bepaalt intentie en context, formuleert antwoorden en stuurt de gespreksloop aan.
Grounding
Kennisbron (RAG)
Onderbouwt antwoorden met gecontroleerde bronnen om verzinsels te beperken.
Natuurlijke Nederlandstalige stem met lage latency en ondersteuning voor barge-in.
Regie
Orchestratie
Bewaakt turn-taking, time-outs, fallbacks en de escalatieregels naar een mens.
Inzicht
Observability
Transcripties, samenvattingen en analytics — de basis voor doorlopende optimalisatie.
Human handover (human assist)
De agent is AI-first, maar nooit AI-only: bij twijfel of complexiteit neemt een mens het over, met context.
Wanneer wordt overgedragen
Expliciet verzoek van de beller om een medewerker te spreken.
Intentie buiten scope of een complexe, gevoelige of commerciële vraag.
Lage zekerheid in herkenning of antwoord, of herhaalde misverstanden.
Sentiment dat om menselijke aandacht vraagt.
Hoe wordt overgedragen
Warme doorverbinding naar een beschikbare medewerker, of
Terugbelverzoek buiten kantooruren of bij drukte, of
Overdracht naar de inbox (omnichannel) voor opvolging.
In alle gevallen krijgt de medewerker de aanleiding, de context en een samenvatting mee, zodat de beller zijn verhaal niet hoeft te herhalen.
Integraties
De agent sluit aan op bestaande telefonie en backoffice; ContactOns richt deze koppelingen in en beheert ze.
Telefonie & voice
Aansluiting op de bestaande telefonie via SIP/VoIP en realtime spraaktechnologie.
KPNVoysTwilioElevenLabsSainerIpster
Messaging & omnichannel
Aanvullende kanalen en menselijke opvolging via de WhatsApp Business API en een omnichannel-inbox.
WhatsApp Business APITrengo
Backoffice & acties
Koppelingen met agenda's, CRM en e-mail voor afspraken, opzoekacties en opvolging via function calling.
Latency & gesprekskwaliteit
Een natuurlijk gesprek vraagt om lage, voorspelbare responstijden en correcte beurtwisseling.
Door streaming STT en TTS te combineren, kan de agent al beginnen met verwerken terwijl de beller nog spreekt, en met antwoorden terwijl de rest wordt gegenereerd. Barge-in laat de beller onderbreken; endpointing en time-outs voorkomen dat de agent te vroeg of te laat reageert. De exacte latency hangt af van de keten, de modellen en het netwerk en wordt in de praktijk gemeten en geoptimaliseerd.
Beveiliging & AVG
Klantcontact is persoonsgegevensverwerking; de inrichting houdt daar rekening mee.
Gesprekken, transcripties en samenvattingen zijn persoonsgegevens en vallen onder de AVG/GDPR. Aandachtspunten bij de inrichting zijn onder andere verwerkersovereenkomsten met de betrokken leveranciers, dataminimalisatie, bewaartermijnen, en transparantie richting bellers. ContactOns richt dit per situatie in; dit is geen juridisch advies.
Technische FAQ
Uit welke componenten bestaat een AI Voice Agent?
Telefonie-ingress (SIP/VoIP), spraakherkenning (STT), taalbegrip en dialoogbeheer (NLU/LLM), een kennisbron (RAG), function calling voor acties, spraaksynthese (TTS), een orchestratielaag en human handover naar een medewerker.
Hoe verloopt de voice-flow?
De beller belt het bestaande nummer, de audio komt via SIP/VoIP binnen, STT zet spraak om in tekst, de NLU/LLM bepaalt intentie en antwoord, function calling voert eventueel een actie uit, TTS spreekt het antwoord uit, en bij complexe vragen volgt human handover met context.
Hoe werkt human handover?
Op basis van escalatieregels (intentie, sentiment, expliciet verzoek of lage zekerheid) draagt de agent het gesprek over via een doorverbinding, terugbelverzoek of de inbox, inclusief samenvatting en context.
Hoe laag is de latency en kan de beller onderbreken?
Door streaming STT/TTS en barge-in kan de beller onderbreken en blijft de responstijd doorgaans laag genoeg voor een natuurlijk gesprek. De exacte latency hangt af van keten en netwerk en wordt gemeten en geoptimaliseerd.
Hoe wordt voorkomen dat de agent dingen verzint?
Door antwoorden te baseren op een gecontroleerde kennisbron (RAG), duidelijke grenzen en escalatieregels, en doorlopende optimalisatie op transcripties. Bij onzekerheid schakelt de agent een mens in.
Op welke telefonie en systemen sluit de agent aan?
Op bestaande telefonie via SIP/VoIP (onder andere KPN, Voys, Twilio) en op backoffice zoals agenda, CRM en e-mail. WhatsApp en chat kunnen aanvullend via de WhatsApp Business API en omnichannel-inbox.
Glossarium
STT (Speech-to-Text)
Realtime omzetting van spraak naar tekst.
TTS (Text-to-Speech)
Omzetting van tekst naar een natuurlijke stem.
NLU
Bepalen van intentie en gegevens uit wat de beller zegt.
Dialoogbeheer
Logica die bepaalt: antwoorden, actie of overdragen.
Function calling
Acties uitvoeren via gedefinieerde tools.
RAG
Antwoorden onderbouwen met een gecontroleerde kennisbron.
Barge-in
De beller kan de agent onderbreken tijdens het spreken.
Endpointing
Detecteren wanneer de beller is uitgesproken.
SIP / VoIP
Protocollen om op bestaande telefonie aan te sluiten.
Human handover
Overdracht aan een mens met context (human assist).
Zelf de architectuur horen werken?
Bel onze AI Voice Agent Ciss en ervaar de voice-flow in de praktijk — of bespreek een inrichting met een specialist.