Boletín Semanal Best-IA #113

Aprende IA, día a día.

Tutoriales

Aprende Cualquier Cosa 10X Más Rápido con IA (Gemini + Anki)

Utiliza n8n Con Modelos Locales (Privado y Gratuito)

Noticias

🎬 Google lanza Veo 3.1: vídeo con audio y coherencia visual mejorada

Google ha presentado Veo 3.1, la nueva versión de su modelo de generación de vídeo por IA, capaz de crear clips de hasta un minuto con audio sincronizado, incluyendo diálogos y efectos de sonido.

🔑 Claves del lanzamiento

  1. Vídeos más largos y coherentes — Ahora admite hasta tres imágenes de referencia para mantener la consistencia de personajes y estilos a lo largo del clip.

  2. Integración completa en el ecosistema Gemini — Veo 3.1 se conecta con la Gemini API, el Flow Editor y plataformas como Higgsfield AI y HeyGen, facilitando extensiones de escena y la inserción precisa de objetos.

  3. Mayor control creativo, aunque con límites — Destaca por su precisión en edición, aunque algunos evaluadores señalan que aún presenta dificultades con movimientos complejos frente a rivales como OpenAI Sora 2.

🎯 Veo 3.1 consolida a Google en la carrera del vídeo generativo, acercando la creación audiovisual automatizada a un nivel profesional y multipista donde imagen y sonido fluyen con naturalidad.

DeepMind impulsa la fusión nuclear con IA junto a Commonwealth Fusion Systems

Google DeepMind ha unido fuerzas con Commonwealth Fusion Systems (CFS) para acelerar el desarrollo de la energía de fusión —el mismo proceso que alimenta al Sol— mediante inteligencia artificial avanzada.

🔑 Puntos clave del avance

  1. Simulación masiva con TORAX — El nuevo simulador de DeepMind permite ejecutar millones de experimentos virtuales antes de encender el reactor SPARC, optimizando configuraciones y prediciendo el comportamiento del plasma.

  2. Control dinámico mediante aprendizaje por refuerzo — Los agentes de IA aprenden a ajustar el plasma en tiempo real, distribuyendo el calor para evitar daños en los materiales cercanos y mantener la estabilidad del reactor.

  3. Camino hacia energía limpia e ilimitada — La combinación de fusión y IA promete un salto hacia una civilización “post-abundancia”, con energía segura, sostenible y prácticamente infinita.

🎯 La alianza marca el inicio de la fusión guiada por IA, acercando por primera vez la posibilidad real de energía limpia e inagotable para toda la humanidad.

Google AI impulsa la investigación del cáncer con dos avances abiertos de DeepMind y Google Research

Google ha anunciado dos innovaciones de código abierto que muestran cómo la inteligencia artificial puede acelerar el descubrimiento científico y mejorar el tratamiento del cáncer.

🔑 Claves del anuncio

  1. DeepSomatic revoluciona el diagnóstico genético — Este modelo identifica con alta precisión variantes genéticas clave en células cancerígenas, superando los métodos actuales y ofreciendo una herramienta más fiable para diseñar terapias dirigidas.

  2. Gemma C2S-Scale 27B genera nuevas hipótesis terapéuticas — El modelo, parte de la familia abierta Gemma, descubrió un posible mecanismo para transformar tumores “fríos” (resistentes a la inmunoterapia) en tumores “calientes” que sí responden al tratamiento.

  3. Ciencia abierta y colaborativa — Ambos avances están disponibles para la comunidad científica, fomentando la colaboración global en biomedicina impulsada por IA.

🎯 Google demuestra cómo la IA no solo acelera el análisis de datos biológicos, sino que también propone nuevos caminos experimentales hacia terapias más efectivas contra el cáncer.

Anthropic lanza Claude Haiku 4.5: velocidad y eficiencia al máximo

Anthropic presenta Claude Haiku 4.5, su nuevo modelo compacto que iguala el rendimiento en programación de Claude Sonnet 4 a un tercio del coste y el doble de velocidad.

🔑 Claves del lanzamiento

  1. Rendimiento ágil y económico — Haiku 4.5 mantiene la calidad de Sonnet 4 en tareas de código, pero reduce drásticamente el coste y mejora la velocidad, ideal para desarrollos rápidos y despliegues masivos.

  2. Optimizado para tareas de uso de ordenador — Supera a Sonnet 4 en control y automatización de interfaces, haciendo Claude for Chrome y Claude Code mucho más fluidos y responsivos.

  3. Sinergia entre modelos — Anthropic propone un uso combinado: Sonnet 4.5 planifica proyectos complejos, mientras Haiku 4.5 ejecuta subtareas en paralelo, actuando como un enjambre coordinado de agentes.

🎯 Haiku 4.5 refuerza la estrategia modular de Anthropic: IA de alto rendimiento, adaptable y eficiente, que acerca la colaboración multiagente al flujo de trabajo cotidiano de los desarrolladores.

Anthropic presenta Agent Skills: el nuevo sistema modular que convierte a Claude en un especialista adaptable

Anthropic ha lanzado Agent Skills, una arquitectura que permite a Claude mejorar su rendimiento en tareas específicas mediante “carpetas de habilidades” que contienen instrucciones, scripts y recursos listos para usar.

🔑 Claves del anuncio

  1. Habilidades dinámicas y seguras — Claude solo carga las skills cuando son relevantes, usando la mínima información necesaria para mantener la velocidad y la privacidad de los datos.

  2. Diseño modular y reutilizable — Las skills son composables y portables: se pueden combinar y reutilizar en Claude apps, Claude Code y la API, garantizando coherencia y flexibilidad.

  3. Capacidades prácticas y ejecutables — Permiten a Claude generar y editar archivos profesionales (Excel, PowerPoint, PDFs rellenables, etc.) o incorporar código ejecutable para flujos complejos.

  4. Creación asistida — La skill-creator skill guía paso a paso al usuario para generar la estructura, los archivos y recursos necesarios, sin edición manual.

  5. Ecosistema de desarrollo — Los equipos pueden gestionar versiones y compartir skills vía GitHub o el marketplace oficial, e integrarlas en agentes personalizados mediante el Claude Agent SDK.

🎯 Con Agent Skills, Anthropic da a Claude una memoria modular y ejecutiva, transformándolo de asistente generalista a experto adaptable, capaz de ejecutar tareas complejas con conocimiento específico y control seguro del entorno.

OpenAI actualiza Sora 2 y ChatGPT con nuevas funciones para creadores y usuarios avanzados

OpenAI anunció dos mejoras clave que amplían las capacidades tanto de su generador de vídeo Sora 2 como del propio ChatGPT.

🔑 Claves de las novedades

  1. Sora 2 con Storyboards y vídeos más largos — Los usuarios Pro ya pueden crear storyboards directamente desde la web y generar vídeos de hasta 25 segundos, mientras que todos los usuarios disponen de hasta 15 segundos en la app y web.

  2. Gestión inteligente de memoria en ChatGPT — El asistente ahora administra automáticamente los recuerdos guardados, evitando mensajes de “memoria llena”. También permite buscar, ordenar y priorizar memorias desde la configuración.

  3. Despliegue global progresivo — Las funciones llegan a usuarios Plus y Pro en la web a partir de hoy, con una implementación gradual a nivel mundial.

🎯 OpenAI refuerza su ecosistema creativo y de productividad: Sora 2 impulsa la narración visual y ChatGPT se vuelve más consciente y organizado, acercándose a una asistencia realmente personalizada.

Microsoft convierte cada PC con Windows 11 en un “AI PC” con Copilot al mando

Microsoft presentó una gran actualización para Windows 11 que transforma la experiencia del sistema operativo con nuevas funciones de IA integradas en Copilot, marcando el inicio de la era de los PCs agentivos.

🔑 Claves de la actualización

  1. Interacción natural y multimodal — Con “Hey Copilot”, los usuarios pueden hablar directamente con su PC. Copilot Voice y Copilot Vision permiten pedir ayuda por voz o texto y recibir asistencia contextual basada en lo que se muestra en pantalla.

  2. Copilot Vision global y mejorado — Disponible en todos los mercados, analiza el contenido de aplicaciones y documentos (Word, Excel, PowerPoint, etc.) para ofrecer instrucciones paso a paso, recomendaciones y soporte interactivo.

  3. Agente local con acciones realesCopilot Actions, en fase de prueba, puede realizar tareas directamente en archivos locales (como clasificar fotos o extraer datos de PDFs), ejecutando acciones de forma autónoma bajo control del usuario.

  4. Integraciones ampliadas y conectores — Copilot ahora se conecta con OneDrive, Outlook, Google Drive, Gmail y Calendar, permitiendo búsquedas naturales (“Encuentra mi cita del dentista”) y exportar textos directamente a Word, Excel o PowerPoint.

  5. Nuevas funciones creativas y de productividad — Llega Manus, un agente que crea sitios web desde documentos locales en minutos; además, se suman acciones de edición con Filmora y funciones Gaming Copilot en dispositivos Xbox Ally.

🎯 Con esta actualización, Windows 11 deja de ser solo un sistema operativo: se convierte en un entorno conversacional, visual y autónomo, donde la IA actúa como un verdadero asistente personal integrado en el flujo de trabajo diario.

Dreamina 4.0: ByteDance lidera el ranking global de generación de imágenes

ByteDance ha logrado que su plataforma creativa “Dreamina” (potenciada por Seedream 4.0) se sitúe en el puesto #1 mundial del leaderboard de Artificial Analysis en generación texto-a-imagen. Su nuevo modelo redefine la creación visual asistida por IA con precisión, versatilidad y calidad 4K real.

🔑 Claves del avance

  1. Hasta 6 imágenes de referencia — Duplica la capacidad de sus competidores (que suelen permitir 3), fusionando estilo, composición y personajes con coherencia automática.

  2. Edición inteligente y localizada — Con Dreamina Image 4.0, basta con pintar la zona a modificar, escribir el prompt y obtener en segundos una imagen 4K impecable, sin alterar el resto.

  3. Calidad profesional lista para impresión — Produce resultados con nitidez, profundidad y fidelidad cromática dignos de uso comercial, manteniendo texto y detalles perfectamente legibles.

🎯 Relevancia
Dreamina 4.0 consolida a ByteDance como un actor clave en el diseño visual generativo: una herramienta donde la imaginación, literalmente, es el único límite.

Riverflow 1: la nueva referencia en edición de imágenes por IA

La plataforma británica Sourceful ha lanzado Riverflow 1, su primer modelo de edición de imágenes basado en un sistema de razonamiento visual-lingüístico combinado con un modelo diffusion de código abierto. Su debut no pudo ser mejor: alcanzó el #1 del leaderboard de Artificial Analysis en la categoría Image Editing – All Listings.

🔑 Claves del lanzamiento

  1. Edición guiada por comprensión real — Riverflow 1 interpreta instrucciones complejas con precisión, ejecutando cambios de texto, color o fondo sin alterar el diseño original.

  2. Razonamiento en cadena visual — Su arquitectura incorpora chain of thought reasoning, lo que le permite “pensar” antes de editar y entregar resultados coherentes y de calidad profesional.

  3. Integración total en Sourceful — Ahora es el modelo por defecto en la plataforma, permitiendo crear mockups, variaciones y ajustes de producto con acabado digno de una agencia creativa.

🎯 Riverflow 1 redefine la edición de imágenes con IA: deja de “adivinar” para realmente diseñar, marcando un salto cualitativo hacia herramientas creativas con comprensión semántica y precisión visual.

Robots

Sistema multirobot híbrido

Un equipo de Caltech y el Technology Innovation Institute (TII) de Abu Dabi ha presentado un sistema multirobot donde un humanoide Unitree G1 transporta en su espalda un dron transformable y lo lanza al vuelo.
Tras el vuelo, el dron se transforma en un robot terrestre con ruedas, capaz de continuar la misión por su cuenta.

El proyecto explora la cooperación entre diferentes tipos de robots para misiones donde ningún tipo de locomoción por sí solo sería suficiente: exploración, rescate o asistencia en entornos cambiantes.

Este tipo de integración representa un paso más hacia ecosistemas robóticos híbridos, donde cada agente asume el rol más eficiente según el terreno o la tarea.

Reflexiones Finales

Andrej Karpathy: “Estamos invocando fantasmas, no construyendo animales”