- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #106
Boletín Semanal Best-IA #106
Aprende IA, día a día.
Tutoriales
Accede a TODOS los modelos de IA con Open WebUI
50 casos de uso de Google Nano Banana
Noticias
GPT-Realtime y la Realtime API ya están listos para producción
OpenAI ha lanzado gpt-realtime, su modelo de voz a voz más avanzado, junto con la salida oficial de la Realtime API de la beta. Ahora los agentes de voz pueden desplegarse en producción con mayor naturalidad, flexibilidad y menor coste.
🔑 Puntos Clave
Mejoras en el modelo: gpt-realtime entiende mejor instrucciones, detecta señales no verbales (como risas), cambia de idioma sin problema y produce una voz más humana, expresiva y adaptable al tono.
Nuevas voces y calidad: se añaden Cedar y Marin, con mejoras en la entonación, la emoción y la naturalidad. Además, todas las voces existentes han sido actualizadas.
Más capacidades en la API:
🔌 Soporte para MCP remotos (extensión de herramientas sin integración manual).
🖼️ Entrada de imágenes para contextualizar conversaciones.
📞 Soporte SIP para conectar con teléfonos y redes públicas.
♻️ Prompts reutilizables para acelerar el desarrollo.
Más accesible: el precio se ha reducido un 20%, facilitando la adopción masiva.
🎯 Relevancia
Con gpt-realtime y la nueva API, los agentes de voz se acercan a una interacción realmente humana, listos para transformar sectores como el soporte, la educación y la asistencia personal.
Realtime Prompting Guide: https://cookbook.openai.com/examples/realtime_prompting_guide
Codex se renueva: nuevas funciones para programar con GPT-5
OpenAI lanza una serie de mejoras para Codex, su asistente de codificación, ahora potenciado por GPT-5 y disponible dentro de tu plan de ChatGPT.
🔧 Novedades destacadas
🧩 Extensión IDE nueva para trabajar cómodamente desde tu editor
🔄 Flujo fluido entre la nube y tu entorno local
✅ Revisiones de código en GitHub, asistidas por IA
💻 Codex CLI completamente rediseñada
Más potente, más integrado y más útil para desarrolladores de todos los niveles.
We’re releasing new Codex features to make it a more effective coding collaborator:
- A new IDE extension
- Easily move tasks between the cloud and your local environment
- Code reviews in GitHub
- Revamped Codex CLIPowered by GPT-5 and available through your ChatGPT plan.
— OpenAI Developers (@OpenAIDevs)
9:01 PM • Aug 27, 2025
🍌 Nano Banana revelado: Google lanza Gemini 2.5 Flash Image para generación y edición de imágenes
Google confirma que el misterioso modelo "nano banana" es en realidad Gemini 2.5 Flash Image, su nuevo sistema de generación y edición de imágenes con calidad SOTA, ya disponible en AI Studio y vía API de Gemini.
🔑 Lo que ofrece
🚀 Velocidad ultrarrápida
🖼️ Consistencia de personajes en múltiples ediciones
✏️ Edición de imágenes en varios pasos con texto
🧠 Capacidad para anotar capturas del mundo real gracias al conocimiento general de Gemini
Disponible en versión gratuita y de pago para usuarios de Gemini.

Grok Code Fast 1: el nuevo modelo de xAI para codificación rápida, agentiva y asequible
xAI lanza Grok Code Fast 1, un modelo de razonamiento optimizado para programación agentiva, diseñado desde cero con una arquitectura ligera que ofrece alta velocidad y bajo coste.
🔧 Características clave
Rendimiento destacado en TypeScript, Python, Java, Rust, C++ y Go
Disponible gratis en IDEs como GitHub Copilot, Cursor, Cline, Kilo Code, Roo Code y más
Accesible vía API con precios competitivos:
$0.20 / 1M input tokens
$1.50 / 1M output tokens
$0.02 / 1M cached tokens
Además, esta semana xAI también ha liberado el código de Grok 2.5, reforzando su apuesta por el ecosistema open-source. Disponible en HugginFace.
Guía oficial sobre cómo obtener los mejores resultados con Grok Fast 1: https://docs.x.ai/docs/guides/grok-code-prompt-engineering
Claude se integra con Xcode: IA para programar dentro del entorno Apple
Claude anuncia su integración con Xcode 26 Beta 7, permitiendo a los usuarios iniciar sesión directamente desde Xcode para acceder a sus funciones de IA.
Con la potencia de Claude Sonnet 4, los desarrolladores pueden:
🧠 Generar código y documentación automáticamente
🛠️ Corregir errores al instante
🧪 Crear inline playgrounds con inteligencia contextual
Una integración nativa que mejora la productividad dentro del ecosistema Apple.
Anthropic crea un consejo asesor para seguridad nacional e IA pública
Anthropic ha anunciado la formación del National Security and Public Sector Advisory Council, un grupo bipartidista de expertos en defensa, inteligencia y política tecnológica.
Los miembros han liderado agencias de inteligencia, dirigido operaciones de seguridad nuclear y contribuido a la estrategia tecnológica nacional de EE. UU. El objetivo: asesorar a gobiernos democráticos aliados en el uso responsable y estratégico de la inteligencia artificial.
Command A Translate: el nuevo modelo de Cohere para traducción de alto nivel
Cohere lanza Command A Translate, su modelo de traducción más avanzado hasta la fecha, diseñado para ofrecer calidad superior en múltiples idiomas y dominios.
🔑 Lo que destaca
🏆 Supera a otros modelos en precisión de traducción
🔁 Compatible con Deep Translation, un enfoque agentivo multietapa que refina los resultados
✅ Validado por RWS Group y Language Weaver en tareas complejas de traducción
Disponible en la plataforma de Cohere, para despliegue privado o uso en investigación vía Hugging Face.
Microsoft lanza VibeVoice: síntesis de voz SOTA con licencia MIT
Microsoft presenta VibeVoice, un modelo de texto a voz de 1.5B parámetros, con resultados de última generación y licencia open source (MIT).
🔑 Características destacadas
🕒 Genera hasta 90 minutos de audio por sesión
🗣️ Soporta más de 4 voces simultáneas
🌐 Compatible con síntesis multilingüe y canto
🔜 Versión streaming y modelo 7B en camino
Un nuevo estándar en TTS accesible y escalable, ideal para desarrolladores, creadores y productos con voz integrada.
Microsoft lanza sus primeros modelos MAI: voz expresiva y modelo fundacional
Microsoft AI presenta sus dos primeros modelos desarrollados completamente in-house:
MAI-Voice-1: modelo de síntesis de voz altamente natural y expresivo, capaz de generar un minuto de audio en menos de un segundo con una sola GPU. Ya disponible en Copilot Daily, Podcasts y Copilot Labs.
MAI-1-preview: primer modelo fundacional de Microsoft entrenado de principio a fin. Actualmente en fase de pruebas públicas en LMArena, marcando el inicio de una nueva etapa para los modelos propios de la compañía.
Wan2.2-S2V: animación facial de calidad cinematográfica, ahora open-source
Alibaba presenta Wan2.2-S2V, un modelo de 14.000 millones de parámetros para generar animaciones humanas realistas a partir de audio. Pensado para cine, televisión y contenidos digitales, va mucho más allá de los típicos talking heads.
🔑 Funciones clave
🎥 Consistencia dinámica en vídeos largos
🎧 Conversión de audio a vídeo con calidad profesional
🎛️ Control avanzado de movimiento y entorno por instrucciones
Código abierto y disponible ya para cineastas, creadores y desarrolladores en wan.video
HeyGen lanza Digital Twin con Avatar IV: tu clon digital, más real que nunca
HeyGen ha integrado su modelo más avanzado, Avatar IV, en su herramienta Digital Twin, permitiendo crear vídeos que replican tus gestos, voz y movimientos con una precisión impresionante.
🔑 Lo que ofrece tu clon digital
🎭 Imita tu estilo, expresiones y lenguaje corporal
🗣️ Adapta el tono y la intención de cada línea a tu forma de hablar
📹 Genera contenido realista sin necesidad de grabarte ni repetir tomas
Una solución perfecta para creadores, educadores, emprendedores y ejecutivos que quieren escalar su presencia sin perder tiempo frente a la cámara.
Ya disponible en HeyGen.
LINK: https://www.heygen.com/
Robots
🎾 HITTER: el sistema que enseña a los robots a jugar al tenis
Investigadores de la Universidad de Tsinghua han presentado HITTER, un sistema que permite a robots humanoides jugar al tenis y mantener peloteos de más de 100 golpes consecutivos.
🔧 ¿Cómo lo logra?
📍 Captura de movimiento para entender el juego en tiempo real
🧠 Planificador basado en IA que decide el golpe adecuado
🤖 Controlador corporal completo que ejecuta el movimiento con latencia subsegundo
Un avance impresionante en coordinación física y toma de decisiones rápidas en robótica humanoide.
🏓🤖 Our humanoid robot can now rally over 100 consecutive shots against a human in real table tennis — fully autonomous, sub-second reaction, human-like strikes.
— Zhi Su (@ZhiSu22)
1:48 AM • Aug 29, 2025
TRON-1: el robot bípedo de LimX Dynamics que mantiene el equilibrio en cualquier terreno
LimX Dynamics ha presentado TRON-1, su nueva plataforma de movilidad bípedo, diseñada para adaptarse y recuperarse en múltiples tipos de terreno.
En la demo, el robot muestra una estabilidad impresionante: mantiene su postura frente a impactos externos y recupera el equilibrio tras pisar superficies irregulares. Un avance clave para la robótica en entornos reales y dinámicos.
TRON 1 | Stability and Recovery in Action
👉 Witness the power of TRON 1
🔗 youtu.be/4cxC0qjm82k?si…
#tron1#robotics #wrc2025#limxdynamics#robot— LimX Dynamics (@LimX_Dynamics)
3:31 AM • Aug 22, 2025