Audio, voz e IA: todo lo que necesitas saber sobre VibeVoice y NotebookLM

El nuevo campo de batalla del conocimiento entre Google y Microsoft: la voz

sep 10, 2025

Imagínate esto: te despiertas, abres tu correo y en lugar de leer mil palabras, presionas “play”. Al instante, una voz, o varias voces, narran, debaten, actúan tu contenido... No solamente leen; interpretan, transmiten emociones, construyen universos auditivos…

Esto ya no es fantasía. Es VibeVoice. Una revolución impulsada por Microsoft, que convierte el conocimiento escrito en audio con vida propia, multi‑voz, de larga duración, todo open‑source.

Mientras tanto, Google responde vistiendo sus audios generados dentro de la plataforma con opciones más atractivas (Deep Dive, Brief, Critique, Debate…) dentro de NotebookLM.

Pero esto no es un duelo de funciones. Es una guerra por cómo se consume, crea, gestiona y vende el conocimiento. ¿Permitiremos que Google nos diga cómo leer mejor? ¿O entraremos de lleno a crear mundos hablados, sin intermediarios?

Porque esto va más allá de una actualización: es una tempestad disruptiva. Y vamos a ayudarte a surfearla, no a ahogarte en ella.

El contexto:

VibeVoice, de Microsoft: modelo open‑source TTS que genera hasta 90 minutos de audio multi‑voz usando tokenización acústica y semántica continua (7.5 Hz) y un sistema de difusión condicional. El resultado: voces reales, con pausas y emociones, eficiente para largas secuencias. Ideal para podcasts, cursos, simulaciones, formación… todo generado por IA, sin estudios ni locutores profesionales.
NotebookLM, de Google: ya venía transformando texto en audio. Ahora añade cuatro formatos: Deep Dive (análisis profundo), Brief (resumen veloz), Critique (valoración) y Debate (dos voces discutiendo) Un enfoque más inteligente, adaptado al estilo de aprendizaje, pero sin reinventar el medio.

El choque ideológico:

Microsoft apuesta por infraestructura. Quiere que la voz sea formato nativo. Democratiza producción vocal a escala. Revoluciona industrias: e‑learning, estudios de locución, podcasting profesional, audiolibros…
Google apuesta por formato inteligente. Refinamiento, personalización. Mejor entrega, sí; pero no rompe el paradigma. Juega a sobrevivir dentro del mapa actual, vistiendo su aplicación existente.

¿Por qué importa?:

Accesibilidad radical: cualquiera con un texto puede generar contenido de alta calidad sin coste, sin intermediarios.
Transformación de modelos de negocio: industrias centradas en voz (estudios, actores, locutores, etc.) se vuelven prescindibles.
Consumo de conocimiento se vuelve emocional: ya no leemos datos; los escuchamos, los sentimos…
Ventaja competitiva para creadores: adopción temprana de esta infraestructura puede desatar una ventaja irreparable.

Mientras Google ha maquillado a NotebookLM con nuevos tonos de voz, Microsoft abre la caja de Pandora con VibeVoice, una herramienta capaz de convertir cualquier texto en un podcast de 90 minutos, con múltiples voces, en tiempo real… Gratis. Y open-source.

¿Qué puedes hacer?

Diagnostica contenido clave:
- ¿Qué se consume mal en texto? (datos densos, guías extensas…)
- ¿Qué se leería si se escuchara? (entrevista, storytelling…)
Experimenta con voz:
- Genera un audio piloto.
- Comparte y ajusta tono, velocidad, emoción.
Automatiza la producción:
- Usa scripts o integraciones en tu CMS/pipeline.
- Asegura que todo texto principal tenga su versión escucharizable.
Distribuye inteligentemente:
- Podcast (gratuito o pago), audioguías, voz como plus para membresías.
- Testea canales: Spotify, podcasts, página web, emails con botón “Escuchar”.

Aquí un listado de herramientas y recursos:

VibeVoice: repositorio oficial de Microsoft.
NotebookLM audio presets: útil como competencia o inspiración de tono.
ElevenLabs: nos encanta, dedicaremos pronto un artículo a esta herramienta, para nosotros la mejor hoy en día a la hora de crear audio y transformar contenidos a audio, clonar voces, etc.
Plataformas de distribución de audio: Anchor.fm, Spotify for Podcasters, SoundCloud…

VibeVoice no lee.
Interpreta.
Y ese matiz lo cambia todo.

Ya no hablamos de texto convertido en audio.
Hablamos de conocimiento que se actúa, se siente, se conversa…

Piénsalo: si puedes generar un podcast real, con voces reales, con dinámica real… sin estudio, sin guionistas, sin editores…

¿Qué papel queda para las viejas estructuras?

Spoiler: ninguno.

No va a ganar un producto.

Van a desaparecer industrias.

Si crees que esto es solo para podcasters, vas a mirar desde el banquillo cómo otros venden, enseñan y transforman mientras tú sigues escribiendo PDFs.

Discusión sobre este post

Por supuesto, sigue adelante.