Agentes de voz con IA: manual completo y PDF gratis
Mientras los gurús venden bootcamps de 1.997€ sobre voice agents, la infraestructura ya está disponible gratis. Esto es lo que se puede hacer este sábado.
Cualquier dueño de negocio local en España pierde entre 5 y 30 llamadas a la semana fuera de horario, y por cada llamada perdida la tasa de conversión es exactamente 0%. Mientras tanto, la infraestructura para resolverlo cuesta cero euros, se monta en una tarde y nadie se la está vendiendo a esos negocios.
Los hay que están aprovechando ese hueco. Y los que cobran 800–2.500 € por enseñarte a aprovecharlo. Este artículo es el manual completo que ellos venden y que aquí te doy entero.
Traducido: Google ha liberado la pieza más cara del stack de voice agents (el modelo en tiempo real). El trabajo de mercado ya no es técnico, es comercial. Y eso, para cualquiera que sepa pitchar a un dentista, un gimnasio o una inmobiliaria, es una ventana enorme.
Vamos a ello (en nuestra web podrás descargar la guía en PDF)
Por qué este momento (y no antes)
Hace dieciocho meses, montar un agente de voz exigía: un modelo de transcripción (Whisper o equivalente), un LLM para razonar, un motor TTS para responder, y un orquestador para mantener latencias por debajo de 800 ms. Cada pieza tenía coste, cada integración tenía fricción, y el resultado sonaba a robot.
Hoy Gemini Flash con Live API hace las tres cosas en un solo endpoint, con latencias por debajo de 500 ms y voces que ya no delatan a la máquina en los primeros tres segundos. Google AI Studio te da una UI gratuita para prototipar todo eso sin escribir una línea de backend.
Lo que esto significa para tu negocio:
Una demo funcional con dominio público, en marcha, en menos de cuatro horas.
Coste de prototipo: 0 €. Coste de producción ligera: entre 5 y 40 € al mes según volumen.
Pitch de venta con prueba viva, no con presentación: el cliente coge el móvil, marca, y habla con su propia recepcionista IA antes de firmar nada.
Esa última frase es el negocio. El resto del artículo es la mecánica.
Para quién pagaría esto hoy mismo
No todos los negocios son cliente. Antes de montar nada, este es el filtro:
Sí, encaja:
Clínicas dentales y médicas privadas. Volumen alto de llamadas de cita, FAQs muy repetitivas, pérdida directa de ingreso cuando suena fuera de horario.
Gimnasios y boutique fitness. Llamadas de información sobre tarifas y horarios, alta tasa de no-respuesta porque el monitor está dando clase.
Inmobiliarias pequeñas. Cada llamada perdida es un lead que se ha ido a la competencia.
Talleres y servicios técnicos. Presupuestos, urgencias, agenda.
Asesorías y gestorías. Filtrado y derivación.
Restauración con reservas. Específicamente los que aún operan con teléfono fijo.
No encaja (todavía):
Negocios B2B con ventas consultivas largas. Aquí el agente molesta más que aporta.
Profesionales liberales con cartera cerrada y boca a boca. No tienen el problema.
Cualquier sector con regulación dura de grabación de llamadas sin haber resuelto antes el RGPD y el consentimiento expreso.
Apunta uno solo de los nichos del primer grupo y construye la demo pensando en él. La especialización es lo que cierra ventas.
Manos a la obra
A partir de aquí es ejecución. Calcula entre tres y seis horas la primera vez que lo haces. A partir del tercer cliente, baja a noventa minutos.
Paso 1. Diseña el cerebro
Antes de tocar AI Studio, el agente necesita un system prompt que defina personalidad, alcance y lógica operativa. Esto es el 70% del resultado final. Un prompt mediocre con la mejor tecnología da un agente que parece un IVR de los 90.
Abre Gemini (gemini.google.com vale) y pídele que te genere el guion:
“Ayúdame a crear un system prompt para un agente de voz IA para [Nombre del negocio]. Debe atender consultas sobre [servicios principales], explicar los precios cuando se pregunten, mantener un tono [tono deseado: cercano profesional / formal / fresco], gestionar objeciones típicas como [objeción 1: ‘es muy caro’] y [objeción 2: ‘me lo pienso’], capturar nombre y teléfono antes de cerrar cualquier llamada, y derivar a un humano cuando detecte que la consulta sale de su alcance.”
Lo que te devuelva, iteralo. El prompt útil contempla siete bloques:
Saludo de apertura. Una frase. Identifica el negocio, ofrece ayuda. Sin pedir permiso para hablar.
FAQs reales. Las 10–15 preguntas que el negocio recibe de verdad, con la respuesta exacta que daría el dueño.
Política de precios. Qué dice cuando preguntan precio. Casi nunca debe dar el precio final por teléfono: agendar visita o consulta es mejor conversión.
Captura de datos. Nombre y teléfono mínimo. Email si aplica. Motivo de llamada.
Gestión de objeciones. Una respuesta breve para cada una. No te enrolles: una objeción mal gestionada en voz es peor que un silencio.
Derivación a humano. Cuándo decir “le paso con alguien del equipo”, aunque ese alguien sea un email que se manda automáticamente.
Cierre. Confirmación de datos capturados y despedida.
Probablemente quieras añadir lo que no debe hacer: no inventar precios, no prometer disponibilidad sin verificar, no hablar de la competencia, no extenderse más de tres frases por turno.
Guarda el texto. Es tu activo principal y lo vas a reutilizar (con variantes) en cada cliente.
Paso 2. Configura el agente en Google AI Studio
Entra en aistudio.google.com con tu cuenta Google.
En la barra lateral abre Build → Create conversational voice apps (según versión también lo verás como Stream Realtime o Live; la funcionalidad es la misma).
Pega tu system prompt en el campo System Instructions.
Selecciona Gemini 2.0 Flash (o la versión Flash más reciente disponible). Es la que prioriza latencia baja, requisito innegociable para que la conversación suene natural. Pro suena mejor en texto pero introduce pausas que en voz se notan como duda.
Elige voz e idioma. Para español castellano, prueba todas las disponibles y descarta las que tengan acento neutro latinoamericano si el cliente es local. La voz importa más de lo que crees: una voz creíble baja la resistencia del que llama en los primeros cinco segundos.
Ajusta los parámetros de temperatura. Para un recepcionista quieres temperatura baja (0.3–0.5): respuestas consistentes, no creativas. Si lo subes, el agente improvisa, y improvisar en negocio es perder.
Pulsa Generar y, lo más importante, pruébalo con el micrófono. No leas la respuesta: escúchala. Si el saludo suena torpe, si pregunta lo que no debe, si se enrolla, no reescribas todo el prompt: añade una corrección en lenguaje natural en el mismo chat (”Asegúrate de pedir siempre el teléfono antes de cerrar la llamada”, “No menciones precios sin que el usuario los pida”). El modelo se reajusta en caliente y verás el cambio en el siguiente intento.
Itera mínimo cinco veces antes de dar el agente por bueno. La primera versión nunca lo es.
Paso 3. Genera la interfaz web
Mismo workspace en AI Studio. En el área de prompt:
“Genera el código HTML, CSS y JavaScript para una landing moderna y profesional para [Nombre del negocio]. Sector: [sector]. Tono visual: [profesional / cercano / premium]. Incluye un hero con título y subtítulo, una sección de servicios con tres elementos, una sección de testimonios placeholder, y un botón destacado de interacción por voz que conecte directamente con este agente para que el usuario pueda hablar con él al instante. Paleta: [colores del cliente o por defecto neutros]. Tipografía: [sans serif moderna].”
Pulsa Run / Preview. AI Studio devuelve el código y una previsualización funcional.
Aquí hay dos modos de trabajar:
Demo rápida: aceptas lo que te genera, ajustas copy de servicios, listo.
Demo seria: iteras el prompt cinco o seis veces hasta que la landing parezca del cliente y no del modelo. Esto es lo que separa una demo que cierra venta de una que el cliente mira con educación y olvida.
Lo que sí debes ajustar siempre antes de enseñarla:
Nombre real del negocio en todos los sitios.
Servicios reales con copy propio.
Teléfono y email reales si el cliente quiere que aparezcan.
Imagen del exterior del local o del equipo si la tienes (puedes pedirla en el primer email de outreach: “necesito una foto del local para personalizar la demo”).
Eliminar todo lo que diga “Lorem ipsum” o “placeholder”.
Diez minutos de ajuste fino en el copy es la diferencia entre “interesante” y “esto lo quiero”.
Paso 4. Publica en vivo
No pagues hosting para una demo. Tres opciones, en orden de menor a mayor control:
Opción A — GitHub Pages. Gratis para siempre, dominio usuario.github.io/proyecto. Crea repo, sube index.html, activa Pages en Settings → Pages. Cinco minutos. Limitación: el dominio no inspira confianza para una venta seria.
Opción B — Vercel. Gratis hasta volúmenes que ningún prototipo va a alcanzar. Arrastras la carpeta a vercel.com, deploy en 30 segundos, dominio proyecto.vercel.app. Permite conectar dominio propio si después el cliente compra uno.
Opción C — Lovable. Si quieres iterar visualmente, conectar dominio propio desde el inicio y ofrecer al cliente acceso al editor visual cuando cierre el contrato. Es el camino que estoy usando en buena parte de los builds actuales del estudio. Cuesta una suscripción, pero a partir del segundo cliente se paga sola.
Resultado: una URL pública que puedes enviar a cualquier dueño de negocio y que él puede llamar desde su móvil sin instalar nada.
Lo que esta guía no resuelve
Soy honesto con esto porque es lo que separa al que monta diez demos y no cierra ninguna del que cobra:
Lo que el prototipo de AI Studio sí hace:
Conversación de voz en tiempo real.
Respuesta a FAQs entrenadas en el system prompt.
Captura básica de datos por conversación.
Demo pública desplegable.
Lo que el prototipo no hace:
Conexión a CRM. Que cada lead capturado entre en HubSpot, Pipedrive o el CRM del cliente. Aquí necesitas pasar de AI Studio a la Gemini Live API directa con un backend mínimo (Cloud Functions, n8n, Make).
Agenda real. Sincronización con Google Calendar o Calendly del cliente para reservar citas de verdad, no decir “alguien te llamará”. Integración vía MCP o API directa.
Grabación y transcripción persistente. Por cumplimiento RGPD y para revisión de calidad.
Multi-idioma con detección automática. Si el negocio recibe llamadas en castellano, catalán y francés (frecuente en Cataluña, Baleares, frontera francesa), el switch de idioma no lo resuelve la UI gratuita.
Dashboard de métricas para el cliente. Llamadas atendidas, duración media, tasa de derivación, leads capturados.
Mi recomendación de roadmap:
Cliente 1–3: cobra setup + mensual con el prototipo AI Studio + Lovable. Que el cliente reciba un email con cada conversación, ya es valor demostrable.
Cliente 4 en adelante: invierte en una arquitectura propia: Gemini Live API + backend en Cloud Run + integración con n8n o Make para CRM y agenda. Una vez montada, replicas en cada cliente nuevo en menos de un día.
La primera versión te paga la segunda. Esa es la lógica.
El siguiente paso
Si has llegado hasta aquí, ya tienes el manual completo. Lo que falta es ejecutar.
Para acelerarte el arranque, he preparado un deck PDF descargable con la versión imprimible de esta guía: checklist por cada paso, plantillas de prompt, scripts de outreach y la calculadora de pérdida por llamadas perdidas que necesitas en la llamada de cierre.
→ Descarga el deck “Voice Agents 24/7. Manual de campo”
Si después de leerlo y montar tu primer agente quieres que te ayudemos a estructurar el modelo de negocio, integrar el agente con el resto de tu stack o construir la versión robusta con Live API, ese es nuestro trabajo en +MAIN.MIND. Pero antes, monta el tuyo. Sin haberlo construido al menos una vez no se vende bien.

