Boletín Semanal Best-IA #106

Aprende IA, día a día.

Tutoriales

Accede a TODOS los modelos de IA con Open WebUI

50 casos de uso de Google Nano Banana

Noticias

GPT-Realtime y la Realtime API ya están listos para producción

OpenAI ha lanzado gpt-realtime, su modelo de voz a voz más avanzado, junto con la salida oficial de la Realtime API de la beta. Ahora los agentes de voz pueden desplegarse en producción con mayor naturalidad, flexibilidad y menor coste.

🔑 Puntos Clave

  • Mejoras en el modelo: gpt-realtime entiende mejor instrucciones, detecta señales no verbales (como risas), cambia de idioma sin problema y produce una voz más humana, expresiva y adaptable al tono.

  • Nuevas voces y calidad: se añaden Cedar y Marin, con mejoras en la entonación, la emoción y la naturalidad. Además, todas las voces existentes han sido actualizadas.

  • Más capacidades en la API:

    • 🔌 Soporte para MCP remotos (extensión de herramientas sin integración manual).

    • 🖼️ Entrada de imágenes para contextualizar conversaciones.

    • 📞 Soporte SIP para conectar con teléfonos y redes públicas.

    • ♻️ Prompts reutilizables para acelerar el desarrollo.

  • Más accesible: el precio se ha reducido un 20%, facilitando la adopción masiva.

🎯 Relevancia

Con gpt-realtime y la nueva API, los agentes de voz se acercan a una interacción realmente humana, listos para transformar sectores como el soporte, la educación y la asistencia personal.

Codex se renueva: nuevas funciones para programar con GPT-5

OpenAI lanza una serie de mejoras para Codex, su asistente de codificación, ahora potenciado por GPT-5 y disponible dentro de tu plan de ChatGPT.

🔧 Novedades destacadas

  • 🧩 Extensión IDE nueva para trabajar cómodamente desde tu editor

  • 🔄 Flujo fluido entre la nube y tu entorno local

  •  Revisiones de código en GitHub, asistidas por IA

  • 💻 Codex CLI completamente rediseñada

Más potente, más integrado y más útil para desarrolladores de todos los niveles.

🍌 Nano Banana revelado: Google lanza Gemini 2.5 Flash Image para generación y edición de imágenes

Google confirma que el misterioso modelo "nano banana" es en realidad Gemini 2.5 Flash Image, su nuevo sistema de generación y edición de imágenes con calidad SOTA, ya disponible en AI Studio y vía API de Gemini.

🔑 Lo que ofrece

  • 🚀 Velocidad ultrarrápida

  • 🖼️ Consistencia de personajes en múltiples ediciones

  • ✏️ Edición de imágenes en varios pasos con texto

  • 🧠 Capacidad para anotar capturas del mundo real gracias al conocimiento general de Gemini

Disponible en versión gratuita y de pago para usuarios de Gemini.

Grok Code Fast 1: el nuevo modelo de xAI para codificación rápida, agentiva y asequible

xAI lanza Grok Code Fast 1, un modelo de razonamiento optimizado para programación agentiva, diseñado desde cero con una arquitectura ligera que ofrece alta velocidad y bajo coste.

🔧 Características clave

  • Rendimiento destacado en TypeScript, Python, Java, Rust, C++ y Go

  • Disponible gratis en IDEs como GitHub Copilot, Cursor, Cline, Kilo Code, Roo Code y más

  • Accesible vía API con precios competitivos:

    • $0.20 / 1M input tokens

    • $1.50 / 1M output tokens

    • $0.02 / 1M cached tokens

Además, esta semana xAI también ha liberado el código de Grok 2.5, reforzando su apuesta por el ecosistema open-source. Disponible en HugginFace.

Claude se integra con Xcode: IA para programar dentro del entorno Apple

Claude anuncia su integración con Xcode 26 Beta 7, permitiendo a los usuarios iniciar sesión directamente desde Xcode para acceder a sus funciones de IA.

Con la potencia de Claude Sonnet 4, los desarrolladores pueden:

  • 🧠 Generar código y documentación automáticamente

  • 🛠️ Corregir errores al instante

  • 🧪 Crear inline playgrounds con inteligencia contextual

Una integración nativa que mejora la productividad dentro del ecosistema Apple.

Anthropic crea un consejo asesor para seguridad nacional e IA pública

Anthropic ha anunciado la formación del National Security and Public Sector Advisory Council, un grupo bipartidista de expertos en defensa, inteligencia y política tecnológica.

Los miembros han liderado agencias de inteligencia, dirigido operaciones de seguridad nuclear y contribuido a la estrategia tecnológica nacional de EE. UU. El objetivo: asesorar a gobiernos democráticos aliados en el uso responsable y estratégico de la inteligencia artificial.

Command A Translate: el nuevo modelo de Cohere para traducción de alto nivel

Cohere lanza Command A Translate, su modelo de traducción más avanzado hasta la fecha, diseñado para ofrecer calidad superior en múltiples idiomas y dominios.

🔑 Lo que destaca

  • 🏆 Supera a otros modelos en precisión de traducción

  • 🔁 Compatible con Deep Translation, un enfoque agentivo multietapa que refina los resultados

  • Validado por RWS Group y Language Weaver en tareas complejas de traducción

Disponible en la plataforma de Cohere, para despliegue privado o uso en investigación vía Hugging Face.

Microsoft lanza VibeVoice: síntesis de voz SOTA con licencia MIT

Microsoft presenta VibeVoice, un modelo de texto a voz de 1.5B parámetros, con resultados de última generación y licencia open source (MIT).

🔑 Características destacadas

  • 🕒 Genera hasta 90 minutos de audio por sesión

  • 🗣️ Soporta más de 4 voces simultáneas

  • 🌐 Compatible con síntesis multilingüe y canto

  • 🔜 Versión streaming y modelo 7B en camino

Un nuevo estándar en TTS accesible y escalable, ideal para desarrolladores, creadores y productos con voz integrada.

Microsoft lanza sus primeros modelos MAI: voz expresiva y modelo fundacional

Microsoft AI presenta sus dos primeros modelos desarrollados completamente in-house:

  • MAI-Voice-1: modelo de síntesis de voz altamente natural y expresivo, capaz de generar un minuto de audio en menos de un segundo con una sola GPU. Ya disponible en Copilot Daily, Podcasts y Copilot Labs.

  • MAI-1-preview: primer modelo fundacional de Microsoft entrenado de principio a fin. Actualmente en fase de pruebas públicas en LMArena, marcando el inicio de una nueva etapa para los modelos propios de la compañía.

Wan2.2-S2V: animación facial de calidad cinematográfica, ahora open-source

Alibaba presenta Wan2.2-S2V, un modelo de 14.000 millones de parámetros para generar animaciones humanas realistas a partir de audio. Pensado para cine, televisión y contenidos digitales, va mucho más allá de los típicos talking heads.

🔑 Funciones clave

  • 🎥 Consistencia dinámica en vídeos largos

  • 🎧 Conversión de audio a vídeo con calidad profesional

  • 🎛️ Control avanzado de movimiento y entorno por instrucciones

Código abierto y disponible ya para cineastas, creadores y desarrolladores en wan.video

HeyGen lanza Digital Twin con Avatar IV: tu clon digital, más real que nunca

HeyGen ha integrado su modelo más avanzado, Avatar IV, en su herramienta Digital Twin, permitiendo crear vídeos que replican tus gestos, voz y movimientos con una precisión impresionante.

🔑 Lo que ofrece tu clon digital

  • 🎭 Imita tu estilo, expresiones y lenguaje corporal

  • 🗣️ Adapta el tono y la intención de cada línea a tu forma de hablar

  • 📹 Genera contenido realista sin necesidad de grabarte ni repetir tomas

Una solución perfecta para creadores, educadores, emprendedores y ejecutivos que quieren escalar su presencia sin perder tiempo frente a la cámara.

Ya disponible en HeyGen.

Robots

🎾 HITTER: el sistema que enseña a los robots a jugar al tenis

Investigadores de la Universidad de Tsinghua han presentado HITTER, un sistema que permite a robots humanoides jugar al tenis y mantener peloteos de más de 100 golpes consecutivos.

🔧 ¿Cómo lo logra?

  • 📍 Captura de movimiento para entender el juego en tiempo real

  • 🧠 Planificador basado en IA que decide el golpe adecuado

  • 🤖 Controlador corporal completo que ejecuta el movimiento con latencia subsegundo

Un avance impresionante en coordinación física y toma de decisiones rápidas en robótica humanoide.

TRON-1: el robot bípedo de LimX Dynamics que mantiene el equilibrio en cualquier terreno

LimX Dynamics ha presentado TRON-1, su nueva plataforma de movilidad bípedo, diseñada para adaptarse y recuperarse en múltiples tipos de terreno.

En la demo, el robot muestra una estabilidad impresionante: mantiene su postura frente a impactos externos y recupera el equilibrio tras pisar superficies irregulares. Un avance clave para la robótica en entornos reales y dinámicos.

Reflexiones Finales

Nick Bostrom: la explosión de inteligencia, qué le sucederá a los humanos y los nuevos sistemas económicos