Hay un momento exacto en el que una llamada con un sistema automático se vuelve incómoda. No es cuando el sistema no entiende lo que dices. Es antes: cuando terminas de hablar y hay silencio. Dos segundos. Tres. El sistema procesa, finalmente responde, y para entonces ya has perdido el hilo, has repetido la pregunta o has colgado.
Ese silencio tiene nombre técnico: es el resultado de un turn-taking mal implementado. Y es el problema más ignorado, y más determinante, en el diseño de agentes IA de voz.
Qué es el turn-taking
El turn-taking es el mecanismo por el que dos personas en una conversación se turnan para hablar. Suena obvio porque lo hacemos de forma completamente automática: sabemos cuándo el otro ha terminado, cuándo podemos intervenir, cuándo un silencio es una pausa pensativa y cuándo es una invitación a responder.
La ciencia lleva décadas estudiando este mecanismo. Los resultados son consistentes y sorprendentes: en conversación humana natural, el tiempo medio entre que una persona termina de hablar y la otra responde es de 200 a 300 milisegundos. Un cuarto de segundo. Y eso ocurre en todas las culturas y lenguas estudiadas, desde el japonés hasta el inglés, según estudios publicados en PNAS con muestras de diez idiomas distintos.
Lo interesante no es solo la velocidad. Es lo que ocurre cuando ese tiempo se alarga. A partir de los 600 milisegundos, los investigadores detectan que los interlocutores empiezan a interpretar el silencio como señal negativa: desinterés, duda, o desconexión. Más allá de los dos segundos, el silencio entre desconocidos genera incomodidad sistemática y reduce la percepción de conexión, según estudios de Dartmouth College publicados en Philosophical Transactions of the Royal Society.
En una conversación telefónica con un cliente, esa incomodidad se traduce directamente en abandono de llamada.
Por qué el turn-taking es el problema más ignorado en los voicebots
Cuando una empresa evalúa un sistema de IA de voz, suele mirar tres cosas: si entiende bien (precisión del STT), si responde bien (calidad del LLM) y si suena bien (calidad del TTS). Estos tres elementos son necesarios, pero ninguno de ellos determina si la conversación se siente natural.
Lo que lo determina es el espacio entre ellos: cuánto tarda el sistema en saber que el usuario ha terminado, cuánto tarda en empezar a procesar, y cuánto tarda en responder de vuelta. Ese espacio total es lo que el cliente percibe como silencio.
En un pipeline STT → LLM → TTS tradicional, la latencia mínima con los mejores componentes disponibles se sitúa alrededor de los 500-600 milisegundos, según datos de Cartesia (State of Voice AI, 2024): aproximadamente 100ms de STT, 320ms de LLM, y 90ms de TTS. Y eso en condiciones óptimas, sin contar la latencia de red de la línea telefónica, que por sí sola añade entre 400 y 600ms adicionales.
El resultado práctico: los sistemas de voz tradicionales tienen latencias percibidas de entre 3 y 8 segundos. Sistemas modernos bien optimizados llegan a respuestas por debajo del segundo. Pero ninguno de esos números importa si el sistema no sabe cuándo el usuario ha terminado de hablar.
Cómo funciona el turn-taking real en un agente IA de voz
El turn-taking no es solo “esperar a que el usuario deje de hablar”. Es un problema mucho más complejo, porque el sistema necesita distinguir entre varios tipos de silencio que suenan igual pero significan cosas distintas.
Los tres problemas que el turn-taking debe resolver
El primero es la detección del fin de turno. Cuando el usuario para de hablar, ¿ha terminado su frase o está pensando? Un punto final no suena diferente a una pausa de 500ms antes de continuar. Los sistemas sin turn-taking avanzado cortan antes de que el usuario haya terminado, o esperan tanto que crean el silencio incómodo que queremos evitar.
El segundo es la gestión de interrupciones. En conversación natural, interrumpir es normal y necesario: para confirmar, para aclarar, para cambiar de tema. Un agente que no gestiona interrupciones pausa toda su respuesta al primer sonido del usuario y pierde el contexto, o directamente ignora la interrupción y sigue hablando encima.
El tercero es la anticipación. Los humanos no esperamos al último milisegundo para empezar a formular nuestra respuesta: la empezamos a construir mientras el otro todavía está hablando, porque anticipamos hacia dónde va la frase. Los agentes IA avanzados hacen lo mismo: empiezan a procesar la probable dirección de la pregunta antes de que el usuario la haya completado, reduciendo la latencia percibida incluso cuando la latencia real no ha cambiado.
Full-duplex: el salto cualitativo
La siguiente frontera en turn-taking es el modelo full-duplex: sistemas capaces de escuchar y hablar de forma simultánea, sobre canales de audio paralelos, como ocurre en una conversación humana real. Modelos como Moshi de Kyutai (2024) o los modelos speech-to-speech de última generación demuestran latencias de 160ms en condiciones controladas mediante procesamiento de un solo paso, eliminando el pipeline STT→LLM→TTS.
Estos sistemas aún tienen retos de configuración e integración en entornos empresariales, pero marcan la dirección: conversaciones de voz con IA indistinguibles de las humanas no en el contenido, sino en el ritmo.
Turn-taking vs. IVR: la diferencia que el cliente siente
Un IVR tradicional no tiene turn-taking porque no necesita tenerlo: el sistema emite un mensaje grabado, espera una respuesta predefinida (una tecla, una palabra exacta), y responde con otro mensaje grabado. No hay conversación, hay navegación por menús.
Un voicebot de primera generación mejora esto parcialmente: entiende lenguaje natural, pero sigue usando un modelo de detección de fin de turno basado en silencio simple (espera X milisegundos de silencio antes de responder). El problema es que ese umbral tiene que ser suficientemente largo para no cortar al usuario, lo que introduce silencios artificiales en cada cambio de turno.
Un agente IA de voz con turn-taking avanzado usa señales prosódicas (la entonación al final de una pregunta vs. de una afirmación), análisis semántico (si la frase gramaticalmente parece completa) y contexto de la conversación para predecir el momento correcto de intervención, sin esperar a un silencio arbitrario.
Por qué el turn-taking importa en operaciones enterprise
En un contexto de atención al cliente a escala, el impacto del turn-taking no es solo de experiencia: es operativo y financiero.
Una llamada con silencios de 3 segundos en cada cambio de turno, en una conversación de 10 intercambios, añade 30 segundos de tiempo improductivo. A 10.000 llamadas al día, son 83 horas diarias de tiempo de cliente desperdiciado. En un contexto de recobros, donde cada conversación tiene un objetivo de negocio medible, esos segundos tienen un impacto directo en la tasa de conversión.
Pero el impacto más inmediato es el abandono. Los sistemas de voz con latencias altas generan abandono de llamada antes de que el agente haya tenido oportunidad de resolver la consulta. Un silencio de 4 segundos en los primeros 30 segundos de una llamada es suficiente para que el cliente decida que el sistema “no funciona” y cuelgue.
El turn-taking bien implementado no es un detalle técnico. Es la diferencia entre un agente de voz que el cliente tolera y uno que el cliente usa.
Qué preguntar al evaluar el turn-taking de un agente de voz
Cuando una empresa evalúa un proveedor de agentes IA de voz, hay preguntas técnicas concretas que revelan la calidad real del turn-taking mucho mejor que cualquier demo preparada:
- ¿El sistema usa detección de fin de turno basada en silencio fijo o en análisis prosódico y semántico?
- ¿Cómo gestiona las interrupciones: pausa completa, ignora, o mantiene contexto?
- ¿Cuál es la latencia medida extremo a extremo incluyendo la red telefónica, no solo el pipeline?
- ¿El sistema puede anticipar respuestas mediante streaming antes de que el usuario termine?
- ¿Cómo se comporta con usuarios que hablan despacio, hacen pausas para pensar, o tienen acentos marcados?
La demo en un entorno controlado siempre suena bien. Lo que diferencia una solución enterprise de un producto de laboratorio es el comportamiento en condiciones reales: ruido de fondo, conexiones de baja calidad, usuarios que no siguen el flujo esperado.
Turn-taking y su relación con los otros elementos del agente IA de voz
El turn-taking no funciona en aislamiento. Es la capa que conecta todos los demás componentes de un agente de voz y determina si el conjunto se percibe como un sistema o como una conversación.
Un agente que entiende perfectamente lo que el cliente dice, que tiene acceso a todos los datos del CRM, y que puede gestionar citas o recobros con precisión, fallará en la experiencia si los turnos son torpes. Y viceversa: un turn-taking impecable con un LLM mediocre producirá silencios cortos, pero respuestas incorrectas.
Por eso la evaluación de un agente de voz enterprise no puede ser parcial. El turn-taking es una pieza crítica, pero la calidad final es la del sistema completo. Si estás evaluando soluciones de automatización telefónica, te recomendamos también revisar qué es un voicebot y en qué se diferencia de un IVR y cómo funciona el pipeline completo de los agentes IA de voz. Y si tienes un caso de uso concreto como la gestión de citas, puedes ver cómo el turn-taking determina la experiencia del paciente o del cliente en este artículo sobre automatización de citas con voicebot.
H2: Preguntas frecuentes sobre turn-taking en IA de voz
El turn-taking es el mecanismo por el que los participantes de una conversación se turnan para hablar. En conversación humana natural, los cambios de turno ocurren en una media de 200 a 300 milisegundos entre lenguas y culturas. En un agente IA de voz, la implementación del turn-taking determina si el sistema detecta correctamente cuándo el usuario ha terminado de hablar, gestiona interrupciones y responde con la latencia adecuada para que la conversación se sienta natural.
Los IVR no tienen turn-taking porque no tienen conversación: emiten mensajes grabados y esperan comandos predefinidos. El problema del silencio incómodo aparece cuando el sistema intenta mantener una conversación real, porque ahí sí necesita saber cuándo intervenir, cuándo callar y cómo reaccionar ante una interrupción.
La investigación en psicolingüística establece que los humanos perciben respuestas de hasta 600 milisegundos como naturales. Por encima de ese umbral, el silencio empieza a generar incomodidad. Los mejores agentes IA de voz actuales logran latencias por debajo de 1 segundo extremo a extremo incluyendo red telefónica, lo que se percibe como una conversación fluida aunque no sea idéntico al tiempo de respuesta humano.
El half-duplex es el modelo tradicional: el sistema escucha o habla, pero no hace ambas cosas a la vez. El full-duplex permite escucha y habla simultáneas sobre canales paralelos, como en una conversación humana real. Los modelos full-duplex de última generación como Moshi demuestran latencias de 160ms en condiciones controladas, aunque su integración en entornos enterprise telefónicos todavía presenta retos de configuración y estabilidad.
Sí. Las llamadas telefónicas añaden entre 400 y 600 milisegundos de latencia de red sobre el pipeline del agente. Esto significa que un sistema que funciona perfectamente en demos por internet puede tener silencios visibles en producción telefónica. Al evaluar un agente de voz enterprise, siempre hay que exigir datos de latencia extremo a extremo en condiciones de red telefónica real.
El turn-taking es el elemento que separa un voicebot que el cliente soporta de un agente de voz que el cliente usa sin pensar que está hablando con una máquina. No es el componente más visible ni el más fácil de demostrar en una presentación, pero es el que determina la experiencia real.
Cuando evalúes una solución de IA de voz para tu organización, mira más allá de la precisión del reconocimiento y la calidad de la voz sintetizada. Pregunta cuánto tarda en responder en condiciones reales. Prueba a interrumpir. Habla despacio y haz pausas. La tecnología que mejor superará esa prueba es la que tiene turn-taking diseñado para el mundo real, no para la demo.
¿Quieres ver cómo funciona en una llamada real? Solicita una demostración con el equipo de Aunoa y comprueba la diferencia antes de tomar ninguna decisión.

