Best-IA Newsletter
Posts
Boletín Semanal Best-IA #106

Boletín Semanal Best-IA #106

Aprende IA, día a día.

Best-IA
1 de septiembre de 2025

Best-IA. ¡Aprende IA, día a día!

Tutoriales

Accede a TODOS los modelos de IA con Open WebUI

50 casos de uso de Google Nano Banana

Noticias

GPT-Realtime y la Realtime API ya están listos para producción

OpenAI ha lanzado gpt-realtime, su modelo de voz a voz más avanzado, junto con la salida oficial de la Realtime API de la beta. Ahora los agentes de voz pueden desplegarse en producción con mayor naturalidad, flexibilidad y menor coste.

🔑 Puntos Clave

Mejoras en el modelo: gpt-realtime entiende mejor instrucciones, detecta señales no verbales (como risas), cambia de idioma sin problema y produce una voz más humana, expresiva y adaptable al tono.
Nuevas voces y calidad: se añaden Cedar y Marin, con mejoras en la entonación, la emoción y la naturalidad. Además, todas las voces existentes han sido actualizadas.
Más capacidades en la API:
- 🔌 Soporte para MCP remotos (extensión de herramientas sin integración manual).
- 🖼️ Entrada de imágenes para contextualizar conversaciones.
- 📞 Soporte SIP para conectar con teléfonos y redes públicas.
- ♻️ Prompts reutilizables para acelerar el desarrollo.
Más accesible: el precio se ha reducido un 20%, facilitando la adopción masiva.

🎯 Relevancia

Con gpt-realtime y la nueva API, los agentes de voz se acercan a una interacción realmente humana, listos para transformar sectores como el soporte, la educación y la asistencia personal.

Realtime Prompting Guide: https://cookbook.openai.com/examples/realtime_prompting_guide
LINK: https://openai.com/index/introducing-gpt-realtime/

Codex se renueva: nuevas funciones para programar con GPT-5

OpenAI lanza una serie de mejoras para Codex, su asistente de codificación, ahora potenciado por GPT-5 y disponible dentro de tu plan de ChatGPT.

🔧 Novedades destacadas

🧩 Extensión IDE nueva para trabajar cómodamente desde tu editor
🔄 Flujo fluido entre la nube y tu entorno local
✅ Revisiones de código en GitHub, asistidas por IA
💻 Codex CLI completamente rediseñada

Más potente, más integrado y más útil para desarrolladores de todos los niveles.

We’re releasing new Codex features to make it a more effective coding collaborator:
- A new IDE extension
- Easily move tasks between the cloud and your local environment
- Code reviews in GitHub
- Revamped Codex CLI
Powered by GPT-5 and available through your ChatGPT plan.
— OpenAI Developers (@OpenAIDevs)
9:01 PM • Aug 27, 2025

🍌 Nano Banana revelado: Google lanza Gemini 2.5 Flash Image para generación y edición de imágenes

Google confirma que el misterioso modelo "nano banana" es en realidad Gemini 2.5 Flash Image, su nuevo sistema de generación y edición de imágenes con calidad SOTA, ya disponible en AI Studio y vía API de Gemini.

🔑 Lo que ofrece

🚀 Velocidad ultrarrápida
🖼️ Consistencia de personajes en múltiples ediciones
✏️ Edición de imágenes en varios pasos con texto
🧠 Capacidad para anotar capturas del mundo real gracias al conocimiento general de Gemini

Disponible en versión gratuita y de pago para usuarios de Gemini.

LINK: https://blog.google/products/gemini/updated-image-editing-model/

***Grok Code Fast 1*: el nuevo modelo de xAI para codificación rápida, agentiva y asequible**

xAI lanza Grok Code Fast 1, un modelo de razonamiento optimizado para programación agentiva, diseñado desde cero con una arquitectura ligera que ofrece alta velocidad y bajo coste.

🔧 Características clave

Rendimiento destacado en TypeScript, Python, Java, Rust, C++ y Go
Disponible gratis en IDEs como GitHub Copilot, Cursor, Cline, Kilo Code, Roo Code y más
Accesible vía API con precios competitivos:
- $0.20 / 1M input tokens
- $1.50 / 1M output tokens
- $0.02 / 1M cached tokens

Además, esta semana xAI también ha liberado el código de Grok 2.5, reforzando su apuesta por el ecosistema open-source. Disponible en HugginFace.

Guía oficial sobre cómo obtener los mejores resultados con Grok Fast 1: https://docs.x.ai/docs/guides/grok-code-prompt-engineering

Claude se integra con Xcode: IA para programar dentro del entorno Apple

Claude anuncia su integración con Xcode 26 Beta 7, permitiendo a los usuarios iniciar sesión directamente desde Xcode para acceder a sus funciones de IA.

Con la potencia de Claude Sonnet 4, los desarrolladores pueden:

🧠 Generar código y documentación automáticamente
🛠️ Corregir errores al instante
🧪 Crear inline playgrounds con inteligencia contextual

Una integración nativa que mejora la productividad dentro del ecosistema Apple.

LINK: https://developer.apple.com/documentation/xcode-release-notes/xcode-26-release-notes

Anthropic crea un consejo asesor para seguridad nacional e IA pública

Anthropic ha anunciado la formación del National Security and Public Sector Advisory Council, un grupo bipartidista de expertos en defensa, inteligencia y política tecnológica.

Los miembros han liderado agencias de inteligencia, dirigido operaciones de seguridad nuclear y contribuido a la estrategia tecnológica nacional de EE. UU. El objetivo: asesorar a gobiernos democráticos aliados en el uso responsable y estratégico de la inteligencia artificial.

LINK: https://www.anthropic.com/news/introducing-the-anthropic-national-security-and-public-sector-advisory-council

Command A Translate: el nuevo modelo de Cohere para traducción de alto nivel

Cohere lanza Command A Translate, su modelo de traducción más avanzado hasta la fecha, diseñado para ofrecer calidad superior en múltiples idiomas y dominios.

🔑 Lo que destaca

🏆 Supera a otros modelos en precisión de traducción
🔁 Compatible con Deep Translation, un enfoque agentivo multietapa que refina los resultados
✅ Validado por RWS Group y Language Weaver en tareas complejas de traducción

Disponible en la plataforma de Cohere, para despliegue privado o uso en investigación vía Hugging Face.

LINK: https://cohere.com/blog/command-a-translate

Microsoft lanza ***VibeVoice*: síntesis de voz SOTA con licencia MIT**

Microsoft presenta VibeVoice, un modelo de texto a voz de 1.5B parámetros, con resultados de última generación y licencia open source (MIT).

🔑 Características destacadas

🕒 Genera hasta 90 minutos de audio por sesión
🗣️ Soporta más de 4 voces simultáneas
🌐 Compatible con síntesis multilingüe y canto
🔜 Versión streaming y modelo 7B en camino

Un nuevo estándar en TTS accesible y escalable, ideal para desarrolladores, creadores y productos con voz integrada.

Microsoft lanza sus primeros modelos MAI: voz expresiva y modelo fundacional

Microsoft AI presenta sus dos primeros modelos desarrollados completamente in-house:

MAI-Voice-1: modelo de síntesis de voz altamente natural y expresivo, capaz de generar un minuto de audio en menos de un segundo con una sola GPU. Ya disponible en Copilot Daily, Podcasts y Copilot Labs.
MAI-1-preview: primer modelo fundacional de Microsoft entrenado de principio a fin. Actualmente en fase de pruebas públicas en LMArena, marcando el inicio de una nueva etapa para los modelos propios de la compañía.

LINK: https://microsoft.ai/news/two-new-in-house-models/

***Wan2.2-S2V*: animación facial de calidad cinematográfica, ahora open-source**

Alibaba presenta Wan2.2-S2V, un modelo de 14.000 millones de parámetros para generar animaciones humanas realistas a partir de audio. Pensado para cine, televisión y contenidos digitales, va mucho más allá de los típicos talking heads.

🔑 Funciones clave

🎥 Consistencia dinámica en vídeos largos
🎧 Conversión de audio a vídeo con calidad profesional
🎛️ Control avanzado de movimiento y entorno por instrucciones

Código abierto y disponible ya para cineastas, creadores y desarrolladores en wan.video

LINK: https://humanaigc.github.io/wan-s2v-webpage/

HeyGen lanza Digital Twin con Avatar IV: tu clon digital, más real que nunca

HeyGen ha integrado su modelo más avanzado, Avatar IV, en su herramienta Digital Twin, permitiendo crear vídeos que replican tus gestos, voz y movimientos con una precisión impresionante.

🔑 Lo que ofrece tu clon digital

🎭 Imita tu estilo, expresiones y lenguaje corporal
🗣️ Adapta el tono y la intención de cada línea a tu forma de hablar
📹 Genera contenido realista sin necesidad de grabarte ni repetir tomas

Una solución perfecta para creadores, educadores, emprendedores y ejecutivos que quieren escalar su presencia sin perder tiempo frente a la cámara.

Ya disponible en HeyGen.

LINK: https://www.heygen.com/

Robots

🎾 HITTER: el sistema que enseña a los robots a jugar al tenis

Investigadores de la Universidad de Tsinghua han presentado HITTER, un sistema que permite a robots humanoides jugar al tenis y mantener peloteos de más de 100 golpes consecutivos.

🔧 ¿Cómo lo logra?

📍 Captura de movimiento para entender el juego en tiempo real
🧠 Planificador basado en IA que decide el golpe adecuado
🤖 Controlador corporal completo que ejecuta el movimiento con latencia subsegundo

Un avance impresionante en coordinación física y toma de decisiones rápidas en robótica humanoide.

🏓🤖 Our humanoid robot can now rally over 100 consecutive shots against a human in real table tennis — fully autonomous, sub-second reaction, human-like strikes.
— Zhi Su (@ZhiSu22)
1:48 AM • Aug 29, 2025

TRON-1: el robot bípedo de LimX Dynamics que mantiene el equilibrio en cualquier terreno

LimX Dynamics ha presentado TRON-1, su nueva plataforma de movilidad bípedo, diseñada para adaptarse y recuperarse en múltiples tipos de terreno.

En la demo, el robot muestra una estabilidad impresionante: mantiene su postura frente a impactos externos y recupera el equilibrio tras pisar superficies irregulares. Un avance clave para la robótica en entornos reales y dinámicos.

TRON 1 | Stability and Recovery in Action
👉 Witness the power of TRON 1
🔗 youtu.be/4cxC0qjm82k?si…
#tron1#robotics #wrc2025#limxdynamics#robot
— LimX Dynamics (@LimX_Dynamics)
3:31 AM • Aug 22, 2025

Boletín Semanal Best-IA #106

Aprende IA, día a día.

Tutoriales

Accede a TODOS los modelos de IA con Open WebUI

50 casos de uso de Google Nano Banana

Noticias

GPT-Realtime y la Realtime API ya están listos para producción

Codex se renueva: nuevas funciones para programar con GPT-5

🍌 Nano Banana revelado: Google lanza Gemini 2.5 Flash Image para generación y edición de imágenes

***Grok Code Fast 1*: el nuevo modelo de xAI para codificación rápida, agentiva y asequible**

Claude se integra con Xcode: IA para programar dentro del entorno Apple

Anthropic crea un consejo asesor para seguridad nacional e IA pública

Command A Translate: el nuevo modelo de Cohere para traducción de alto nivel

Microsoft lanza ***VibeVoice*: síntesis de voz SOTA con licencia MIT**

Microsoft lanza sus primeros modelos MAI: voz expresiva y modelo fundacional

***Wan2.2-S2V*: animación facial de calidad cinematográfica, ahora open-source**

HeyGen lanza Digital Twin con Avatar IV: tu clon digital, más real que nunca

Robots

🎾 HITTER: el sistema que enseña a los robots a jugar al tenis

TRON-1: el robot bípedo de LimX Dynamics que mantiene el equilibrio en cualquier terreno

Reflexiones Finales

Nick Bostrom: la explosión de inteligencia, qué le sucederá a los humanos y los nuevos sistemas económicos

Boletín Semanal Best-IA #106

Aprende IA, día a día.

Tutoriales

Accede a TODOS los modelos de IA con Open WebUI

50 casos de uso de Google Nano Banana

Noticias

GPT-Realtime y la Realtime API ya están listos para producción

Codex se renueva: nuevas funciones para programar con GPT-5

🍌 Nano Banana revelado: Google lanza Gemini 2.5 Flash Image para generación y edición de imágenes

Grok Code Fast 1: el nuevo modelo de xAI para codificación rápida, agentiva y asequible

Claude se integra con Xcode: IA para programar dentro del entorno Apple

Anthropic crea un consejo asesor para seguridad nacional e IA pública

Command A Translate: el nuevo modelo de Cohere para traducción de alto nivel

Microsoft lanza VibeVoice: síntesis de voz SOTA con licencia MIT

Microsoft lanza sus primeros modelos MAI: voz expresiva y modelo fundacional

Wan2.2-S2V: animación facial de calidad cinematográfica, ahora open-source

HeyGen lanza Digital Twin con Avatar IV: tu clon digital, más real que nunca

Robots

🎾 HITTER: el sistema que enseña a los robots a jugar al tenis

TRON-1: el robot bípedo de LimX Dynamics que mantiene el equilibrio en cualquier terreno

Reflexiones Finales

Nick Bostrom: la explosión de inteligencia, qué le sucederá a los humanos y los nuevos sistemas económicos

***Grok Code Fast 1*: el nuevo modelo de xAI para codificación rápida, agentiva y asequible**

Microsoft lanza ***VibeVoice*: síntesis de voz SOTA con licencia MIT**

***Wan2.2-S2V*: animación facial de calidad cinematográfica, ahora open-source**