Cómo crear imágenes con IA: 8 componentes de un prompt visual

sep 25, 2025

Imagínate esto: tienes una idea en tu cabeza (una escena, un personaje, un estilo visual…) quieres que esa visión cobre vida mediante inteligencia artificial. Abres tu herramienta favorita (Midjourney, ChatGPT, Nano Banana, DALL·E, Stable Diffusion, etc.) y escribes algo como “mujer”, “paisaje”, o “ciudad futurista”. Y obtienes algo… meh. No se parece demasiado a lo que tenías en mente.

Ese momento de frustración es común. Porque el prompt es tu única herramienta de comunicación con la IA (ya lo vimos en “La guía definitiva del buen prompting”) Si no le das señales claras y bien diseñadas, el generador tratará de adivinar y entregará resultados genéricos o equivocados.

Por eso es vital aprender a construir prompts para imágenes con arte y técnica. Un prompt bien construido puede transformar un resultado mediocre en una imagen poderosa, única, coherente con tu visión.

Aquí no vale con escribir cualquier cosa y esperar magia. Si quieres que la imagen generada por inteligencia artificial sea espectacular y fiel a lo que tienes en la cabeza, necesitas estructurar tu prompt con precisión.

¿Cómo crear imágenes con IA?

Según guías de prompting visual como la de Learn Prompting y otras fuentes especializadas (Google Cloud…), un buen prompt suele articular ocho elementos fundamentales que componen un prompt visual potente.

Aquí te los explicamos uno por uno, con ejemplos concretos para que no te quede ninguna duda:

1. Sujeto u objeto central

Este es el protagonista de la imagen. Lo primero que la IA va a buscar en tu texto es qué debe representar. Puede ser una persona, un animal, un objeto o incluso un concepto abstracto, pero debe estar claramente descrito.

Por ejemplo:

“Una mujer de cabello largo”.
“Un guerrero samurái”.
“Una bicicleta retro”.

No pongas simplemente “persona” o “paisaje”, porque eso no dice nada. Cuanto más específico seas, más afinado será el resultado.

2. Acción, pose o dinámica

Aquí defines qué está haciendo el sujeto. ¿Está de pie? ¿Corriendo? ¿Mirando algo? ¿Tocando un instrumento?

Ejemplos:

“Mirando al horizonte”
“Caminando entre ruinas”
“Sosteniendo una antorcha encendida”

Esto le da vida a la imagen y evita que el personaje parezca una estatua sin intención.

3. Entorno o contexto

¿Dónde está ocurriendo la escena? ¿En qué tipo de ambiente o ubicación?

Ejemplos:

“Una ciudad futurista con rascacielos y luces de neón”
“Un bosque encantado con niebla matutina”
“Una playa desierta al amanecer”

Este elemento ayuda a contextualizar al sujeto y construir una narrativa visual coherente.

4. Estilo visual o técnica artística

Aquí defines cómo debe “verse” la imagen. No es lo mismo una ilustración digital, que una pintura al óleo, que un render 3D o una foto en blanco y negro.

Ejemplos:

“Estilo cómic con tinta negra y detalles de color”
“Pintura al óleo estilo barroco”
“Fotografía estilo retrato profesional con fondo desenfocado”

Puedes también referenciar artistas o estilos conocidos: “al estilo de Van Gogh”, “como una portada de cómic Marvel”, etc.

5. Iluminación, atmósfera y color

Este es el ingrediente emocional de la imagen. La luz, el color y el ambiente generan una atmósfera que comunica mucho más que solo los objetos visibles.

Ejemplos:

“Iluminación cálida del atardecer con sombras largas”
“Luz fría de luna con reflejos en el agua”
“Ambiente brumoso con neblina azulada y contraste suave”

Aquí defines el tono emocional de la escena: romántico, misterioso, épico, terrorífico…

6. Composición y perspectiva

No basta con saber qué elementos quieres, también debes definir cómo están dispuestos y desde qué punto de vista los estás observando.

Ejemplos:

“Vista aérea de una ciudad nocturna”
“Retrato en primer plano con fondo desenfocado estilo bokeh”
“Perspectiva desde abajo mirando hacia el cielo”

Esto le da profundidad y dinamismo a la imagen. La IA lo interpreta como si fuese un director de cine eligiendo el encuadre.

7. Detalles técnicos

Aquí defines aspectos como resolución, tipo de lente, nitidez, nivel de detalle o técnicas específicas para lograr cierto efecto visual.

Ejemplos:

“Resolución 8K con ultra detalle”
“Estilo hiperrealista con textura visible en la piel”
“Enfoque nítido con lente de 50mm”

Esto afina la calidad final. Cuanto más avanzado es el generador que uses, más caso hará a este nivel técnico.

8. Exclusiones o negativos

Esto es CLAVE y muchos lo olvidan: puedes (y debes) decirle al modelo qué no quieres que incluya. Esto previene errores visuales comunes.

Ejemplos:

“Sin logotipos visibles”
“Evitar manos deformes o con dedos incorrectos”
“No incluir texto ni marcas de agua”

Estas frases, llamadas negative prompts, son especialmente útiles para mantener la estética limpia y libre de errores grotescos.

Una versión básica del prompt podría seguir una fórmula tipo:

“[Sujeto] + [entorno/escena] + [estilo/atmósfera] + [iluminación/composición] + [detalles técnicos] + [negativos]”

Por ejemplo:

“Una guerrera medieval con armadura ligera, caminando por un bosque encantado al amanecer, estilo pintura digital realista, luz cálida y neblina, lente 35 mm, ultra detallada. No armas futuristas, sin logotipos visibles.”

Ese es el esqueleto. Pero con eso solo no garantizas que la IA “lo entienda” bien. Aquí entra lo fino: el uso de modificadores, pesos, iteraciones, etc.

Cómo de “específico” debe ser el prompt:

Existe una tensión entre ser detallado y sobrecargar al modelo con palabras innecesarias.

Las guías de prompting recomiendan que el prompt sea lo suficientemente específico para orientar correctamente al modelo, sin caer en exceso de adjetivitis.
Muchos modelos tienen límites de tokens o capacidad de atención, así que si usas un prompt demasiado largo y enredado, partes de él pueden perder peso o olvidarse.
Una técnica útil es priorizar palabras clave fuertes, más que una larga cadena de adjetivos.

Por ejemplo, “Atardecer + ciudad futurista + lluvia + reflexiones + luces de neón” es más poderoso que un prompt kilométrico con adjetivos redundantes.

También conviene experimentar: algunos modelos trabajan mejor con prompts más cortos, otros aceptan prompts extensos. La práctica te dará el “sweet spot” para cada modelo.

Técnicas intermedias y avanzadas para prompts más poderosos:

Una vez que ya dominas los componentes básicos, puedes aplicar técnicas más sofisticadas para lograr control fino y consistencia visual.

Uso de pesos / énfasis en palabras

Muchas plataformas (Midjourney, Stable Diffusion con interfaces como AUTOMATIC1111) permiten asignar pesos a partes del prompt:

Entre corchetes o dobles paréntesis para resaltar.
Entre paréntesis: (palabra:1.5) para enfatizar.
Negativos con – o negative prompt.

Esto permite decirle a la IA: “esto es más importante que aquello”.

Ejemplo:

(guerrera épica:1.5) en un bosque místico al amanecer, luces doradas, (neblina suave:1.2)  
– texto – logo – elementos modernos

De este modo, “guerrera épica” pesa más que “bosque místico”.

Prompting por etapas / prompt en cadena:

Dividir el prompt en pasos ayuda al modelo a pensar visualmente. Algunos flujos comunes:

Prompt resumen / bosquejo general.
Refinamiento del estilo.
Ajustes de iluminación / detalles.
Corrección de errores (versión negativa)

Este enfoque recuerda al chain-of-thought prompting para LLMs, pero adaptado al ámbito visual.

Por ejemplo:

Paso 1: “Crea la escena base: bosque al amanecer con figura humana central.”
Paso 2: “Añade vestuario épico, estilo fantasía realista.”
Paso 3: “Aplica luz cálida, rayos de sol filtrándose entre árboles, neblina leve.”
Paso 4: “Elimina imperfecciones: manos torcidas, pies flotantes, ruido visual.”

Este método permite mayor control y reduce errores de interpretación.

Few-shot prompting (mostrar ejemplos):

Algunos modelos pueden aceptar prompts de ejemplo o referencias para “qué tipo de imagen quieres”. Esto funciona mejor en modelos con contexto extenso.

Por ejemplo:

“Aquí tienes tres ejemplos de estilo que me gustan:
Amanecer al estilo Studio Ghibli.
Retrato hiperrealista con luz dorada.
Ilustración de fantasía con neón.
Ahora genera una escena de ciudad futurista al atardecer en ese estilo.

Porque el modelo “ve” los ejemplos y adapta la salida en esa línea.

Priming contextual / “prompts guía”:

Puedes introducir contexto previo antes de pedir la imagen: “Eres un artista conceptual que trabaja para una película de fantasía…” Esto “preconfigura” el tono.

También puedes usar prompts meta: primero pedir que el modelo genere un prompt optimizado para imagen, y luego usar ese prompt con el generador (Meta-prompting)

Técnicas de corrección y refinamiento iterativo:

Negativos explícitos: no manos torcidas, no texto, sin artefactos…
Prompt inverso: decir lo que no quieres.
Multiplicar variaciones y escoger la mejor.
Usar atención local o máscaras (ControlNet, inpainting…)
Prompt en “diptych” (dividir imagen en paneles) para alinear conceptos o mejorar consistencia de sujeto específico.
Herramientas de refinamiento automático, como mostrar al modelo unas imágenes de referencia y pedir ajustes (PromptCharm)

Estilos de prompting descriptivo:

Según un artículo que analiza los tipos de prompting visual puedes adoptar distintos estilos según tu objetivo:

Subject-focused prompting: el sujeto es lo principal, el fondo secundario…
Scene-focused prompting: la escena completa es protagonista.
Design-focused prompting: pensado para diseño gráfico o layouts donde hay que dejar espacio para texto u otros elementos.
Abstract prompting: más conceptual, emocional, simbólico…

Cada estilo exige cambios en tus componentes de prompt y estructura de énfasis.

Aplicación práctica: frameworks, plantillas y checklists

Aquí te dejo tres frameworks (plantillas) para diferentes tipos de prompts, listas para adaptar:

Prompt para personaje / retrato

[Nombre del personaje] / [tipo de personaje: guerrero, mago, detective]  
Pose / acción: [acción o postura]  
Rostro / expresión / mirada  
Entorno mínimo: [ambiente cercano]  
Estilo artístico: [realismo, cómic, anime, pintura digital]  
Iluminación / ambiente: [dramática, nocturna, luz de luna, nevada]  
Detalles técnicos: [8K, ultra detalle, nitidez, lente]  
Negativos: [sin artefactos, sin deformaciones, sin texto]

Ejemplo real:

“Guerrera elfa con ojos verdes intensos, sosteniendo arco levantado, mirada decidida. Bosque encantado al crepúsculo detrás, estilo ilustración digital realista, luz tenue dorada entre árboles, 8K ultra detalle, lente 85 mm. No armas modernas, sin logotipos visibles, sin manos deformes.”

Prompt para paisaje / escenario

Tema central: [montañas, ciudad, bosque, espacio]  
Época / hora del día / clima  
Punto focal / composición: [sendero, río, puente]  
Estilo visual: [fantasía, futurista, realismo, steampunk]  
Iluminación / atmósfera / efecto ambiental  
Perspectiva / ángulo de cámara  
Detalles técnicos: [resolución, gran angular, profundidad de campo]  
Negativos: [sin elementos distractores, sin artefactos]

Ejemplo:

“Un valle montañoso con río serpenteante al amanecer, neblina suave sobre los picos, estilo fantasía realista. Composición en “S” con sendero que conduce al fondo. Iluminación cálida, suave reflejo sobre el agua, cielo naranja. Perspectiva amplia, profundidad de campo. 8K ultra detalle. Sin figuras humanas ni elementos modernos ni artefactos visibles.”

Prompt para diseño gráfico / marketing visual

Tema / mensaje principal  
Elemento visual central  
Espacio para texto / logo / branding  
Estilo / estética visual (moderna, minimalista, retro)  
Colores dominantes / paleta  
Iluminación / textura / ambiente  
Formato / proporciones (banners, posters, redes sociales)  
Detalles técnicos: resolución, márgenes seguros  
Negativos: evitar que texto se mezcle, evitar elementos distractores

Ejemplo:

“Banner promocional: mujer con mirada confiada en retrato medio, fondo degradado azul-rosado. Estilo minimalista moderno, espacio limpio a la derecha para texto. Paleta: azul eléctrico, blanco y dorado. Luz suave, textura sutil de partículas. Proporciones 1920×1080. 4K. No elementos recargados ni texto sobre el rostro.”

Checklist de validación previa al envío de prompt

Antes de “mandar” al generador, recorre esta lista:

¿Está definido el sujeto principal con claridad?
¿El entorno / contexto acompaña, no distrae?
¿El estilo artístico está explícito?
¿La iluminación / ambiente aporta emoción?
¿La composición o perspectiva guía la mirada?
¿Hay detalles técnicos (resolución, lente, nitidez)?
¿Incluiste negativos para evitar errores comunes?
¿El prompt no es excesivamente largo?
¿Usas pesos o énfasis donde importa?
¿Piensas iterar (variaciones) o corregir con negativos?

4. Casos reales / ejemplos + análisis

Aquí tienes al menos 3 ejemplos con variaciones y resultados esperados:

Caso 1: Arte conceptual para videojuego de fantasía

Prompt inicial (corto):

“Caballero en armadura frente a castillo al atardecer”

Probable resultado: el caballero es genérico, castillo simple, iluminación aburrida.

Prompt refinado con técnicas:

“Caballero con armadura ornamentada (oro y bronce:1.3), espada alzada, de pie frente a un castillo gótico en ruinas al atardecer. Iluminación cálida, rayos de sol filtrándose entre torres, fondo montañoso lejano. Estilo ilustración digital realista con detalle épico, 8K. No criaturas modernas, sin vehículos. Generar 4 variaciones y escoger mejor.”

Explicación:

Uso de peso (oro y bronce:1.3) para enfatizar colores de armadura
Escena dramática con iluminación
Solicitud de múltiples variaciones

Resultado ideal: una imagen con impacto visual claro, jerarquía visual, nitidez y coherencia temática.

Caso 2: Imagen para marketing de producto de tecnología

Prompt inicial (fallido):

“Teléfono moderno”

Imagen genérica, sin mensaje, sin atmósfera.

Prompt refinado:

“Un smartphone moderno posado sobre mesa de mármol negro, reflejo suave bajo luz cenital sutil. Estilo minimalista premium, alto contraste, luz fría azul y detalles metálicos. Composición centrada, espacio lateral para texto promocional. 4K ultra nitidez. No cables ni accesorios extra. Generar 3 versiones limpias.”

Explicación:

Contexto de lujo (mesa de mármol)
Iluminación controlada
Espacio pensado para superposición de texto
Negativos para evitar distracciones

Caso 3: Ilustración narrativa / cuento infantil

Prompt inicial (débil):

“Niño con dragón”

Ambos podrían aparecer poco definidos, sin ambiente narrativo.

Prompt refinado:

“Niño de 8 años con capa roja, montando un dragón infantil azul claro, ambos mirándose con expresión amistosa. Montañas al fondo, cielo crepuscular con tonos púrpura. Estilo ilustración infantil tipo acuarela digital, contornos suaves, paleta pastel. 3000×2000 px. Sin elementos oscuros, sin armas agresivas.”

Discusión sobre este post

Por supuesto, sigue adelante.