La carrera de la voz en IA: por qué la identidad conversacional es la nueva ventaja competitiva de las marcas
Hace apenas un año, muchos veíamos la síntesis de voz como una herramienta curiosa para creadores de contenido o una mejora incremental para los audiolibros. Era un nicho dentro de la Inteligencia Artificial Generativa, a la sombra de los grandes modelos de lenguaje y la generación de imágenes. Pero algo ha cambiado profundamente en los últimos meses.
Me pregunto si somos conscientes de lo que significa que una empresa pase de 200 a más de 330 millones de dólares en ingresos recurrentes anuales en menos de un año. O que otra levante 130 millones para consolidarse como el motor de los agentes de voz empresariales. O que los analistas proyecten un mercado de entre 14.000 y 20.000 millones de dólares para 2030, creciendo a más del 30% anual.
La voz ha dejado de ser una categoría de modelo marginal para convertirse en una carrera de infraestructuras. Ya no importa solo quién suena “más humano”, sino quién es más rápido, más barato por minuto y más fiable a escala global. Estamos ante el nacimiento de la identidad conversacional a escala industrial.
Y si me lo permites, llevo preparándome para este momento desde que en 2019. Cuando la mayoría del sector miraba hacia los chatbots de texto y los primeros experimentos con GPT-2, fundé Voikers. La propuesta era clara, aunque a muchos les sonaba prematura: crear la voz de las marcas, entre otros proyectos relacionados con la Inteligencia Artificial, Voz, Branding, Identidad Verbal, etc.
No hablábamos sólo de elegir una locución bonita para un podcast. Hablábamos de estrategia de voz, identidad sonora, personificación de marca, tecnología conversacional, asistentes virtuales con personalidad propia, etc. Como dije entonces, y lo recogieron varios medios: “Las estrategias de voz ponen en juego el capital de confianza de las marcas y el alcance futuro de su comunicación, persona a persona.”
La visión de Voikers era holística: tecnología (IA, Big Data, neurociencia, voice tech, interfaces conversacionales…), contenidos (podcasts, branded content, transformación de contenido a audio…), investigación y estrategia de voz, y desarrollos propios en metodología de creación de voces y experiencias conversacionales. En 2023 la compañía se integró en el gigante de la Comunicación y el Marketing español LLYC.
Voikers me permitió abrir una línea de investigación que hoy es el eje central de mi trabajo de investigación en la tesis doctoral: la identidad conversacional. La idea de que marcas, autores y profesionales, así como cualquier desarrollo en IA, deben definir su personalidad, su estilo conversacional, su voz (tono, ritmo, vocabulario, nivel de empatía, personalidad, etc.), etc., para dialogar en la Era de la Inteligencia Artificial. No es un manual de estilo visual. Es el equivalente para la conversación, el lenguaje, la personalidad de la IA, el oído y para la conversación. Y es, ahora lo vemos, exactamente lo que el mercado empieza a demandar a gritos.
El contexto de 2026: números que sacuden
Si en 2019 la voz era una apuesta de futuro, en febrero de 2026 es una realidad con números de vértigo.
ElevenLabs, para mi la mejor herramienta de voz y audio que existe, acaba de cerrar una ronda de 500 millones de dólares liderada por Sequoia Capital, elevando su valoración a 11.000 millones. Más de tres veces lo que valía hace un año. Andreessen Horowitz cuadruplicó su inversión; ICONIQ la triplicó. La compañía cerró 2025 con más de 330 millones en ARR, impulsada por clientes como Deutsche Telekom, Square, Revolut y el gobierno de Ucrania. Su cofundador, Mati Staniszewski, ya habla abiertamente de preparar una salida a bolsa. Y su hoja de ruta va más allá de la voz: alianza con LTX para producir contenido audio-a-vídeo, un nuevo modelo conversacional más rápido y emocionalmente expresivo, y la plataforma ElevenAgents para construir agentes que puedan “hablar, escribir y actuar”.
Deepgram, por su parte, levantó 130 millones en su Serie C, alcanzando una valoración de 1.300 millones. La ronda, liderada por AVP, contó con la participación de Twilio, SAP, ServiceNow Ventures y Citi Ventures, entre otros. Pero lo más relevante estratégicamente fue su adquisición de OfOne, una plataforma de IA de voz para pedidos en ventanilla de restaurantes que ya alcanza un 95% de contención en grandes cadenas de comida rápida. Como dijo su CEO, Scott Stephenson: “Los pedidos de comida por voz podrían ser la primera interacción positiva que más de 300 millones de americanos tengan con la IA de voz.” Deepgram no solo vende tecnología: está comprando mercado vertical.
El cambio: de la curiosidad a la infraestructura crítica
Lo que estamos viviendo es el reset de las expectativas de velocidad en el sector tecnológico. Y el insight relevante aquí no es la tecnología en sí, sino la latencia. En la economía de la atención, cada milisegundo de silencio en una interacción entre un humano y una IA es una fricción que destruye el ROI emocional. Las empresas ya no buscan un modelo que lea textos. Buscan una infraestructura que permita a sus agentes inteligentes mantener conversaciones en tiempo real, con contexto, con emoción y en más de 50 idiomas simultáneamente.
El salto de 200 a 330 millones de ARR de ElevenLabs en un solo año es una señal de que el mercado empresarial ha pulsado el botón de compra. Ya no hay pruebas de concepto. Hay despliegues masivos en centros de llamadas, pipelines de medios y operaciones de clientes.
Para el directivo de marketing o comunicación, esto significa que la voz es ahora el eje central de su ecosistema de contenidos. Si tu marca no tiene una voz definida, coherente y capaz de reaccionar en milisegundos, simplemente no existe en la nueva interfaz de usuario: la conversación. Para esto contacta con nosotros, somos los líderes en ello.
Construyendo tu identidad conversacional
Para navegar este nuevo escenario, propongo la metodología de integración de voz que llevo desarrollando desde desde hace años y que aplicamos con empresas de todos los tamaños, cada vez con más escala. Se estructura en cuatro pasos, diseñados para evitar el ruido y centrarse en el valor:
Primero, define el ADN de Voz. No se trata de elegir una voz masculina o femenina al azar. Debes establecer los parámetros de tu identidad: tono, ritmo, vocabulario propio, nivel de empatía, personalidad (sí, con base en modelos psicológicos como los Big Five), sistema de metáforas, patrones de apertura y cierre. Es el equivalente al manual de identidad visual, pero para el oído y para la conversación. En MAIN MIND lo llamamos el Manual de Identidad Conversacional, y es el documento estratégico más importante que una marca puede tener hoy para dialogar con sistemas de IA.
Segundo, mapea el ecosistema de puntos de contacto. ¿Dónde hablará tu marca? No pienses solo en el teléfono. Piensa en tu web con AEO (Answer Engine Optimization), en tus aplicaciones móviles, en tus agentes inteligentes, en tus podcasts, en tus vídeos corporativos y en tus procesos internos. El objetivo es una presencia omnicanal donde la voz sea el hilo conductor.
Tercero, selecciona la infraestructura de escala. Aquí es donde las noticias de ElevenLabs y Deepgram cobran sentido estratégico. Debes elegir partners que garanticen baja latencia y cobertura global. No te sirve un modelo excelente que tarda 3 segundos en responder. En el marketing voice, la velocidad es una ventaja competitiva tan importante como la calidad.
Cuarto, implementa la automatización significativa. Empieza por los procesos que generan fricción al cliente. Usa agentes inteligentes que puedan “hablar, escribir y actuar” (exactamente la visión que ElevenLabs está materializando con ElevenAgents)
La clave no es sustituir al humano sino liberar al humano de tareas repetitivas para que pueda centrarse en el valor real: la empatía, la creatividad, la resolución de problemas complejos, etc. Ya lo vimos el otro día en el artículo “La paradoja de Starbucks: por qué automatizarlo todo es la única forma de volver a ser humano”.
Por qué la identidad conversacional importa más que nunca
La investigación académica respalda lo que la intuición del mercado ya confirma: asignar una personalidad estratégica a los agentes de IA mejora significativamente su rendimiento. No es “añade personalidad y mejora todo”. Es emparejamiento estratégico de personalidad con tarea, contexto y usuario. La personalidad funciona mejor cuando se adapta dinámicamente, cuando se fundamenta en marcos psicológicos establecidos y cuando se combina con múltiples perspectivas.
Esto es exactamente lo que he estado investigando en mi doctorado en la UCLM y lo que aplico en cada proyecto: la identidad conversacional es arquitectura estratégica.
Cuando en 2019 presentábamos en Voikers la idea de crear “Manuales de Identidad Conversacional” para las marcas, muchos nos miraban con curiosidad. Hoy, cuando ElevenLabs vale 11.000 millones de dólares y Deepgram se convierte en unicornio construyendo la infraestructura que necesita exactamente ese tipo de identidad para funcionar, aquella apuesta se revela como anticipación, no como utopía.
El mercado de la voz ha dejado de esperar a los rezagados. La concentración de capital en gigantes como ElevenLabs (11.000 millones), Deepgram (1.300 millones) y Sesame (con su ronda de 250 millones) asegura que la tecnología será cada vez más accesible, rápida y ubicua. La pregunta ya no es si la voz es importante, sino si tu marca tiene algo valioso que decir y la identidad conversacional adecuada para expresarlo.
Y eso es exactamente lo que llevo haciendo desde hace años: ayudar a las marcas a encontrar su voz, definir su personalidad conversacional y prepararse para un mundo donde la conversación es la interfaz.

