LA SEÑAL
Posts
El nuevo generador de videos con IA de Google compite con Sora

El nuevo generador de videos con IA de Google compite con Sora

ADEMÁS: Crea un agente de voz con IA para atención al cliente en tu sitio web

December 19, 2024

Bienvenidos, entusiastas de la IA

Mientras Sora se suponía que sería el gran destaque de la temporada navideña, Google podría haber dejado un poco de carbón en la media de OpenAI.

El nuevo modelo de video Veo 2 del gigante tecnológico parece dejar a Sora en el olvido, con capacidades 4K, realismo y físicas que te harán cuestionar la realidad. Entremos en detalles...

En el resumen de IA de hoy:

Google lanza modelos de video e imágenes de próxima generación
ChatGPT Search se vuelve gratuito para todos
Agentes de IA crean videos de más de 10 minutos a partir de texto
5 nuevas herramientas de IA
Más noticias sobre IA y tecnología

Tiempo de lectura: 4 minutos

Google lanza modelos de video e imagen de próxima generación

Google acaba de anunciar el lanzamiento de Veo 2, un modelo de generación de video de última generación que crea clips de alta resolución con un realismo y detalle impresionantes, junto con Imagen 3, un modelo de imagen mejorado que también ofrece una calidad de vanguardia.

Veo 2:

Veo 2 puede generar clips de 8 segundos en resolución 4K (720p en el lanzamiento) y ha recibido mejoras significativas en la calidad del control cinematográfico.
El modelo muestra enormes avances en la simulación de físicas y una reducción de alucinaciones, logrando movimientos y detalles más realistas.
Veo 2 superó a todos los competidores en evaluaciones humanas directas y en adherencia a las indicaciones, incluido Sora, el modelo recientemente lanzado por OpenAI.
El modelo se está implementando gradualmente a través de la lista de espera de VideoFX, y se planea su integración con YouTube Shorts para 2025.

Imagen 3:

El modelo mejorado ofrece una mayor viveza de colores y composición en varios estilos artísticos, con un mejor manejo de detalles finos, texturas y renderizado de texto.
Entre las nuevas capacidades se incluyen una interpretación más precisa de las indicaciones y un mejor renderizado de escenas complejas que se ajustan a las intenciones del usuario.
Imagen 3 superó a todos los modelos, incluidos Midjourney, Flux e Ideogram, en evaluaciones humanas en cuanto a preferencia, calidad visual y adherencia a las indicaciones.
El modelo ya está disponible a través de ImageFX en Google Labs y se está implementando en más de 100 países.

Por qué importa:
Google está teniendo un cierre absolutamente espectacular en 2024, primero con Gemini 2.0 y ahora con Veo 2 e Imagen 3. Estos modelos parecen elevar el nivel en ambas categorías, ofreciendo un rendimiento de última generación en casi todas las áreas de la IA. OpenAI puede tener el protagonismo esta temporada navideña, pero Google está mostrando los resultados.

ChatGPT Search se vuelve gratuito para todos

OpenAI acaba de anunciar una importante expansión de su función de búsqueda en ChatGPT durante el Día 8 del evento de transmisión en vivo de la compañía, haciéndola gratuita para todos los usuarios, junto con capacidades de búsqueda por voz y mejoras en funciones móviles.

Los detalles:

La función de búsqueda, anteriormente premium, ahora está disponible para todos los usuarios con sesión iniciada, ofreciendo respuestas más rápidas y accesibles a través de un icono de globo en la plataforma.
La búsqueda se ha añadido al Modo de Voz Avanzado para usuarios premium, permitiendo realizar búsquedas mediante indicaciones habladas de forma natural.
La experiencia móvil de búsqueda ha sido renovada, con diseños visuales mejorados para negocios locales e integración nativa con Google y Apple Maps.
Los usuarios también pueden configurar ChatGPT Search como su motor de búsqueda predeterminado, mostrando enlaces relevantes antes de las respuestas de texto de ChatGPT para un acceso más rápido.
OpenAI adelantó un "mini Día del Desarrollador" para mañana.

Por qué importa:
La capacidad de ChatGPT para acceder a la web y obtener información actualizada es un paso importante hacia un futuro más agente, especialmente en el Modo de Voz Avanzado, transformando la herramienta en una versión mucho más inteligente y capaz de Siri (y tal vez potenciándola en el futuro). La búsqueda está a punto de cambiar drásticamente en la era de la IA.

Agentes de IA crean videos de más de 10 minutos a partir de texto

La startup de IA Higgsfield acaba de presentar ReelMagic, una plataforma multiagente que transforma conceptos de historias en videos completos de 10 minutos, afirmando agilizar todo el proceso de producción en un único flujo de trabajo.

Los detalles:

La herramienta utiliza agentes de IA especializados para roles de producción como escritura de guiones y edición, creando contenidos largos y cohesivos en menos de 10 minutos.
ReelMagic comienza con una breve sinopsis, y los agentes de IA se encargan de refinar el guion, seleccionar actores virtuales, filmar, añadir sonido/música y editar.
El motor de razonamiento inteligente de ReelMagic selecciona automáticamente los modelos de IA óptimos para cada toma y tiene asociaciones con Kling, Minimax, ElevenLabs, entre otros.
La plataforma ya está siendo probada por importantes estudios de Hollywood, y Higgsfield también planea lanzar Hera, una plataforma de transmisión de videos impulsada por IA.
El acceso está disponible para participantes del Proyecto Odyssey mediante una lista de espera, sin información sobre un lanzamiento más amplio.

Por qué importa:
Ha habido una desconexión entre los generadores de video con IA y la capacidad de crear contenido cohesivo y de larga duración, que requería una gran cantidad de edición manual. Aunque aún no está disponible públicamente, ReelMagic parece ser un flujo de trabajo que combina el poder creativo ilimitado de la IA para desbloquear mayores capacidades narrativas.

NUEVAS HERRAMIENTAS

🗂️ ChatGPT Projects - Agrupa archivos, chats e instrucciones personalizadas en un solo lugar para una mejor organización y una interacción más fluida
🎥 Pika 2.0 - Nuevo modelo de generación de videos con "ingredientes" para incorporar las imágenes propias del usuario en los resultados, con un movimiento y animación mejorados
💬 Eden - Plugin social impulsado por IA para responder en cualquier página web con un solo clic y generar comentarios personalizados
✍️ Draft Alpha - Asistente de escritura AI para producir contenido de calidad en diversos canales de distribución con una voz de marca consistente
📝 Steer 2.0 - Corrige y mejora inteligentemente la escritura en cualquier aplicación con un asistente nativo ultrarrápido

NOTICIAS EXPRESS

Meta lanzó una actualización para sus gafas inteligentes Ray-Ban, incorporando asistencia AI en vivo, traducción de idiomas en tiempo real e integración de Shazam para el reconocimiento de música sin manos.

YouTube implementó nuevos controles que permiten a los creadores de contenido autorizar explícitamente a empresas de IA específicas para entrenar modelos con sus videos, con una lista inicial de 18 grandes empresas tecnológicas, incluidas OpenAI, Microsoft y Meta.

Google Labs presentó una nueva herramienta llamada Whisk, una herramienta creativa de IA que combina Imagen 3 y Gemini para ayudar a los usuarios a remixer y transformar visuales a través de capacidades de imagen a imagen.

Eric Schmidt, ex CEO de Google, advirtió sobre las crecientes capacidades de la IA en una entrevista con ABC, diciendo que "desconectar" podría ser necesario cuando lleguen los sistemas auto-mejorables.

Masayoshi Son de SoftBank se comprometió a una inversión de $100B en IA de EE.UU. en una reunión con el presidente entrante Donald Trump, con el objetivo de crear 100,000 empleos en los próximos cuatro años.

Lockheed Martin estableció una nueva subsidiaria llamada Astris AI, con la esperanza de acelerar la adopción de la IA en la industria de la defensa y aplicaciones comerciales.

¡ESO ES TODO!