Cómo escribir prompts para video que realmente funcionen (y eviten desastres)

sep 30, 2025

Este artículo se incluye dentro de las otras dos guías prácticas sobre buen prompting que ya hemos sacado, enfocadas a texto e imagen respectivamente:
La guía definitiva del buen prompting: desde hablarle en voz alta hasta afinar cada palabra en Word como un profesional.
Cómo crear imágenes con IA: 8 componentes de un prompt visual.

Imagínate esta escena: estás con la idea perfecta para un video de 15 segundos que podría viralizarse, lo visualizas en tu mente: cámara lenta, humo suave, luces cálidas, música ambiental. Abres tu herramienta de IA de video (Runway, Veo, Gen‑4, etc.), escribes algo como “persona en luz tenue caminando” y te sale un clip con errores visuales, cabezas deformes y estética extraña.

Te frustra. Sabes que la tecnología lo puede hacer, pero los resultados no coinciden con lo que imaginas.

¿Qué separa el video que falla del video que enganchó? Un prompt que funciona. Esa diferencia mínima entre “meh” y “wow” puede ser la diferencia entre quemar créditos inútilmente o producir contenido que cautiva.

¿Qué es el video prompting y por qué importa hoy?

Definición y contexto

Prompting, el arte de escribir instrucciones para modelos generativos, ha sido ampliamente explorado en texto e imagen. Pero en video es muchísimo más complejo: no sólo necesitas describir lo que se ve, sino cómo se mueve, cómo se ilumina, qué duración tiene, cómo cambia el encuadre, incluso qué se oye (sí, audio es parte del prompt en muchos motores)

Un modelo de video basado en texto toma tu prompt como entrada y genera una secuencia de fotogramas (y en algunos casos audio) que coincide con esa instrucción.

La calidad del output está fuertemente influida por la claridad, estructura y técnica de tu prompt. Muchos fallos visuales (brazos deformes, movimientos raros, objetos flotando…) suceden porque el modelo no entendió bien lo que querías.

En los últimos años han aparecido modelos como Gen‑4 de Runway (guía de prompting), sistemas como Veo 3 que integran prompt + audio realista y guías especializadas que muestran cómo describir movimiento, cámara y atmósfera para que el modelo lo interprete como dirección cinematográfica.

Por qué es estratégico dominarlo ahora.

Diferenciación competitiva.
Eficiencia en tiempo y crédito: cada generación consume recursos. Si tus prompts están optimizados, reduces el “desperdicio”.
Escalabilidad de contenido: con un framework, puedes producir lotes de videos con variaciones (mismo prompt con leves ajustes) que sirven múltiples plataformas.
Nuevas oportunidades de monetización: desde publicidad, contenidos para redes sociales, intros animadas o incluso producción de clips para terceros.
El momento es ahora: la tecnología está en aceleración exponencial. Modelos como Sora de OpenAI prometen generar video más realista y con más duración. Si te quedas atrás, la curva de adopción te tragará.

Anatomía de un buen prompt de video

Para que un modelo pueda ejecutar tu visión, tu prompt debe “hablar su idioma”. Aquí tienes las piezas que nunca deben faltar:

Tipo de plano o encuadre (Shot Type / Enfoque):
Describe desde qué ángulo o distancia veremos la escena. Ejemplos: close-up, wide shot, bird’s-eye view, over-the-shoulder…
Sujeto o elemento principal:
¿Qué aparece en pantalla? Puede ser una persona, objeto o ser imaginario. Ejemplos: mujer, coche antiguo, robot, mascota…
Acción o movimiento:
¿Qué está ocurriendo? Es la acción principal del sujeto. Ejemplos: caminando, flotando, girando, corriendo…
Movimiento de cámara:
Describe cómo se moverá la cámara durante la toma. Ejemplos: pan, tilt, dolly-in, seguimiento, cámara en mano…
Escenario o ambiente:
Dónde transcurre la escena. El lugar define el tono y la atmósfera. Ejemplos: bosque al amanecer, ciudad neón, interior minimalista…
Estilo visual o estética:
El look & feel general del video. Define el género visual. Ejemplos: cinematográfico, hiperrealista, vaporwave, tono cálido…
Iluminación o condiciones de luz:
Cómo se ilumina la escena. Afecta el mood visual. Ejemplos: contraluz suave, luz volumétrica, neblina, luz dorada…
Color o tratamiento de color (color grading):
Define la paleta cromática dominante. Ejemplos: tonos tierra, verde esmeralda, azul eléctrico…
Textura y efectos visuales:
Detalles que añaden riqueza visual como filtros o partículas. Ejemplos: film grain, bokeh, aberración cromática, destellos de lente…
Audio o ambiente sonoro:
Qué sonidos acompañan la escena (si el modelo lo permite). Ejemplos: viento, gotas de lluvia, crujido de hojas, música tenue…
Prompts negativos o restricciones (Negative Prompts):
Lo que explícitamente quieres evitar en la generación. Ejemplos: sin marcas de agua, sin deformaciones, sin texto, sin artefactos visuales.

Algunos modelos permiten separar “prompts positivos” (lo que quieres) y “prompts negativos” (lo que no quieres). Esta dualidad sirve como filtrado para que el generador evite errores comunes.

Un ejemplo completo combinando los elementos (generado con Veo3 de Google, vídeo y audio incluidos):

“Close-up de una mujer caminando por un bosque al amanecer, cámara en movimiento lento hacia adelante (dolly-in), luz dorada suave entre árboles con bruma, partículas de polvo en el aire, tono cálido cinematográfico, film grain, Audio: hojas crujientes bajo sus pies, canto distante de pájaros. —no glitch —no deformaciones —no texto”

Framework de video prompting.

Voy a darte un sistema paso a paso replicable para que puedas generar tus propios prompts con confianza:

Framework “SHOT” (estructura simplificada)

S = Shot / estilo de encuadre.
H = Human (o sujeto) / acción.
O = Óptica / movimiento de cámara / lentes.
T = Tono, ambiente, audio / detalles.

Y se puede extender con negativos: –(negativos)

Así que el prompt será:

[Shot] + [Sujeto+Acción] + [Óptica / cámara] + [Tono / ambiente / audio] + —negativos

Cada parte la llenas con términos precisos. Veamos un paso a paso:

Paso 1. Define el encuadre (Shot)

Decide desde qué punto de vista quieres ver la escena:

Plano general, plano medio, close-up, contrapicado, cenital.
“Wide shot de un valle”, “close-up de rostro”, “plano cenital de mesa”.

Paso 2. Sujeto + acción

Qué está haciendo ese sujeto:

“Joven mujer corriendo”, “robot flotando”, “perro ladrando”, “árbol moviéndose con viento”.

Evita múltiples acciones compuestas en un solo prompt (“caminando y hablando y señalando”), demasiada complejidad genera confusión. Muchos expertos recomiendan una acción dominante por prompt.

Paso 3. Óptica / movimiento de cámara

¿Cómo quieres que se mueva la cámara?

Dolly-in, push-out, pan left/right, tilt up/down, seguimiento, cámara en mano, zoom suave, órbita alrededor del sujeto.
Evita combos complejos (“zoom mientras se inclina”) salvo que estés probando iteraciones avanzadas.

Paso 4. Tono / ambiente / audio / efectos

Aquí le das sabor. Agrega:

Escenario: bosque, ciudad, interior minimalista
Iluminación: dorada, contraluz suave, luz volumétrica
Atmosfera: bruma, partículas, polvo, lluvia, humo
Estética: cínica, de fantasía, retro, “vaporwave”, dramática
Audio (si se permite): viento, pasos, hojas crujientes, música tenue
Textura / filtros: grano de película, bokeh, aberración cromática, lens flare

Paso 5. Negative prompts / restricciones

Lo que no quieres:

sin marcas de agua, sin deformaciones, sin elementos flotantes, sin glitch, sin texto errático.

Iteración controlada

Comienza con un prompt básico (incluso solo 3 elementos: encuadre + sujeto + acción).
Evalúa el resultado.
Agrega solamente un nuevo componente (por ejemplo, luz, cámara…) en la siguiente versión.
No hagas 10 cambios simultáneos: eso complica el diagnóstico.
Guarda cada versión y su resultado para construir tu biblioteca personal de seeds/prompts.

Este enfoque incremental lo promueven guías como la de Gen‑4 de Runway: iniciar simple y añadir detalles de uno en uno.

4. Casos prácticos con prompts detallados

Aquí tienes ejemplos de prompts aplicables que puedes ajustar para tus proyectos:

Caso 1: Producto / marketing

Prompt:
“Close-up de un reloj de pulsera presentado sobre mármol blanco, cámara en dolly-in suave, luz lateral suave con reflejo, partículas de polvo en el aire, tono elegante, estética de alta gama, film grain leve. —no deformación —no marcas de agua —no fondo distractor —no texto”

Qué hace este prompt:
Hace énfasis en el objeto (reloj), usa un movimiento suave para revelar el producto, ilumina para destacar materiales, mantiene el foco limpio con negativos.

Caso 2: Cinemático / visual storytelling

Prompt:
“Wide shot de una carretera desierta al atardecer, coche clásico conduce desde el fondo hacia adelante, movimiento de cámara seguimiento atrás, cielo dramático con nubes doradas, luz cálida y sombras alargadas, partículas de polvo levantándose del asfalto, tono nostálgico cinematográfico, Audio: viento suave, motor distante. —no glitch —no distorsión”.

Objetivo: Crear una escena con narrativa visual, movimiento coherente y clima emocional.

Caso 3: Atmosférico / fantasía

Prompt:
“Plano medio de un árbol antiguo en bosque encantado, ramas moviéndose suavemente, luz crepuscular verde-azulada filtrada entre hojas, motas de polen flotando, cámara en leve pan lateral, estética de fantasía, textura suave con niebla, sonido: viento susurrante, crujido de hojas. —no aberraciones —no bordes pixelados —no textos”

Punto fuerte: ambiente, movimiento leve, estética imaginativa.

Errores comunes, cómo evitarlos + tips avanzados

Errores frecuentes

Incluir demasiadas acciones en un solo prompt:
Caminando, hablando y señalando…, confunde al modelo. Mejor una acción dominante. Muchas guías advierten ese error.
Vagos genéricos tipo “hazlo cinematográfico” sin más:
“Cinematográfico” por sí solo no le da dirección concreta. Debes acompañarlo con especificaciones técnicas: tipo de lente, iluminación, movimientos…
No usar negative prompts:
Muchos errores visibles son producto de lo que no quieres. “Sin deformaciones”, “sin texto” ayudan a prevenir artefactos.
Combinaciones de movimientos complejas:
“Tilt + zoom + pan + roll” genera caos visual. Mejor usa un solo movimiento dominante. En cuanto a cámara, claridad ante complejidad. Usuarios experimentados dicen: un movimiento limpio genera mejores resultados.
Ignorar el audio:
Cuando el modelo lo permite, incluir pistas sonoras (sonidos ambientales, pasos, viento) aumenta la inmersión y hace que el video “se sienta real”. Algunos creadores lo destacan como un gran diferencial. Reddit+1
Saltarse la iteración:
No creas que tu primer prompt será el definitivo. Muchos profesionales recomiendan generar múltiples versiones y escoger la mejor. “Volume beats perfection” es mantra compartido por creadores de video IA. Reddit

Trucos de maestro:

Front‑loading de elementos claves:
En algunos modelos la posición de las palabras importa: los términos al inicio tienen más peso interpretable.
Semillas (seed) fijas:
Genera múltiples versiones con el mismo prompt pero cambiando la seed (semilla). Si una versión baja tiene errores, otra puede salir bien. Luego guarda esa seed para futuros ajustes.
Biblioteca de prompts + variaciones pequeñas:
Crea plantillas con variables (luz, color, ángulo) y construye versiones rápidamente. El enfoque sistemático vence la inspiración “instintiva”.
Reverse‑engineering de videos virales:
Toma un video que te guste, analiza qué cámaras, ángulos, atmósfera, movimientos usa, y trata de escribir un prompt que lo reproduzca. Luego compara con el original y ajusta.
Control por segmento / timestamps:
Si la herramienta lo permite, divide tu video en fragmentos y define el prompt para cada tramo. Esto te da control narrativo. Algunos motores lo admiten.
Aprovecha lo “AI aesthetic”:
En lugar de forzar hiperrealismo, abraza el look distintivo que tiene la generación de IA (luces extrañas, transiciones sutiles) como elemento visual diferencial. Muchos creadores lo hacen conscientemente.

Ya tienes un arsenal completo: conocimiento técnico del prompting en video, framework, ejemplos precisos, errores a evitar y un workflow escalable. Pero… ¿qué hacer ahora mismo?

Empezar…

Aquí te compartimos algunas soluciones para que puedas ir testando:

Runway Gen-3: muy versátil, buena calidad.
Pika Labs: fácil de usar, ideal para principiantes.
Kling AI: buenos resultados en movimiento.
Sora (OpenAI): menciona que existe aunque tiene acceso limitado.
Freepik: desde don de puedes atacar diferentes modelos de creación audiovisual.

Discusión sobre este post

Por supuesto, sigue adelante.