- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #125
Boletín Semanal Best-IA #125
Aprende IA, día a día.
Tutoriales
Apps en ChatGPT
Noticias
D4RT: Google DeepMind acelera la comprensión del mundo 3D en movimiento
Google DeepMind ha presentado D4RT, un modelo unificado que convierte vídeo en representaciones 4D (espacio + tiempo) de forma mucho más rápida y escalable que los métodos anteriores, permitiendo a la IA entender escenas dinámicas de manera continua.
🔑 Claves del avance
Representación 4D unificada: D4RT aprende simultáneamente geometría y movimiento, siguiendo píxeles y objetos a lo largo del tiempo sin reconstrucciones fragmentadas.
Arquitectura eficiente: codifica el vídeo en una versión comprimida y lo consulta con un decodificador ligero en paralelo, reduciendo drásticamente el coste computacional.
Velocidad extrema: procesa un vídeo de 1 minuto en unos 5 segundos sobre un solo TPU, entre 18× y 300× más rápido que enfoques previos.
Múltiples tareas con un solo modelo: permite predecir trayectorias 3D de píxeles, congelar tiempo y cámara para reconstruir escenas completas, y alinear vistas para recuperar la trayectoria de la cámara.
Robustez en escenas dinámicas: mejora notablemente los fallos típicos de la reconstrucción 4D, como ghosting y retrasos al tratar con objetos en movimiento.
🎯 D4RT apunta a ser una pieza estructural para robótica, AR y world models, acercando a la IA a una comprensión espaciotemporal continua del mundo físico, imprescindible para sistemas autónomos avanzados y el progreso hacia AGI.
GLM-4.7-Flash: un modelo open source eficiente para agentes y programación en local
Z.ai ha presentado GLM-4.7-Flash, una versión optimizada de su último modelo que reduce drásticamente el tamaño sin sacrificar capacidades. Con 30B parámetros, está pensado para despliegues ligeros y ejecución en local, manteniendo un rendimiento competitivo en tareas complejas.
🔑 Puntos clave
Equilibrio rendimiento-eficiencia: establece un nuevo estándar en la clase de 30B, ofreciendo buenas prestaciones con menores requisitos de hardware.
Asistente de código y agentes: diseñado como copiloto para programación y flujos agénticos, con capacidad para razonar y actuar en tareas encadenadas.
Más allá del código: recomendado también para escritura creativa, traducción, roleplay y trabajos con contexto largo.
Open source y local-first: orientado a desarrolladores que buscan control, privacidad y ejecución sin depender de infraestructuras externas.
🎯 Este lanzamiento de Z.ai refuerza la tendencia a modelos medianos pero capaces, ideales para agentes locales y aplicaciones prácticas, acercando capacidades avanzadas de IA a entornos con recursos limitados.
Qwen3-TTS: generación de voz avanzada open-source con control natural y streaming extremo
Qwen ha liberado Qwen3-TTS, una familia de modelos de síntesis de voz diseñada para ofrecer clonación, diseño de voz y generación de habla de alta fidelidad con control mediante lenguaje natural, orientada tanto a desarrolladores como a productos a escala.
🔑 Claves del avance
Arquitectura y codificación: usa el Qwen3-TTS-Tokenizer-12Hz multi-codebook, que comprime eficientemente el audio preservando información paralingüística y el entorno acústico, permitiendo reconstrucción rápida y fiel sin arquitecturas DiT pesadas.
Dual-Track y streaming: logra generación bidireccional en tiempo real; el primer paquete de audio se entrega tras procesar un solo carácter.
Modelos abiertos y tamaños: dos variantes open-source (1.7B y 0.6B). La de 1.7B maximiza control y calidad; la de 0.6B equilibra rendimiento y eficiencia.
Capacidades de voz: clonación, diseño de timbres, control por instrucciones en lenguaje natural y adaptación automática de tono, ritmo y emoción según el contexto.
Idiomas y robustez: soporte para 10 idiomas principales (incluido español) y dialectos, con mayor tolerancia al ruido en el texto de entrada.
🎯 La apertura de Qwen3-TTS consolida la tendencia hacia TTS controlable, en streaming y multiidioma, acelerando la integración de voz natural en asistentes, creación de contenido y aplicaciones en tiempo real.
Inworld TTS-1.5: voz en tiempo real con latencias sub-250 ms y soporte multilingüe
Inworld amplía su portfolio de síntesis de voz con TTS-1.5, una nueva generación de modelos orientados a aplicaciones en tiempo real, con foco en baja latencia, naturalidad y despliegue flexible para desarrolladores y empresas.
🔑 Puntos clave
Dos variantes especializadas: TTS-1.5-Max (P90 <250 ms, 190 ms mediana) para producción general y TTS-1.5-Mini (P90 160 ms, 120 ms mediana) para escenarios ultra sensibles a latencia.
Arquitectura streaming-native: nuevo códec de audio optimizado para generación en tiempo real, con entrenamiento consciente de cuantización y refuerzo a gran escala para reducir errores y artefactos.
Cobertura lingüística y clonación: soporte para 16 idiomas y opciones actualizadas de voice cloning vía API.
Modelo de acceso: precio por uso de 5 dólares por millón de caracteres en el modelo Mini y 10 dólares el modelo Max.
Despliegue e integración: opción on-premise y disponibilidad a través de socios como LiveKit, Vapi o Pipecat.
🎯 TTS-1.5 refuerza la carrera por voces conversacionales a velocidad humana, donde latencia y expresividad marcan la diferencia en agentes, accesibilidad y experiencias interactivas en tiempo real.
LINK: https://inworld.ai/
NVIDIA PersonaPlex-7B: voz full-duplex y open source
NVIDIA ha presentado PersonaPlex-7B, un modelo conversacional de voz full-duplex y open source que rompe con el pipeline clásico ASR → LLM → TTS, permitiendo interacciones de voz mucho más naturales.
🔑 Claves del avance
Modelo full-duplex real: escucha y habla simultáneamente, sin turnos rígidos, gracias a un transformer de doble flujo que procesa audio y texto en paralelo.
Conversación más humana: habilita back-channels instantáneos, interrupciones naturales y un ritmo conversacional continuo.
Audio token-native: opera directamente sobre tokens de audio continuos, eliminando la necesidad de encadenar modelos separados.
Control de personalidad zero-shot: permite ajustar el estilo conversacional sin entrenamiento adicional.
Open source y accesible: modelo de 7B parámetros, licencia MIT y pesos disponibles públicamente.
🎯 Con PersonaPlex-7B, NVIDIA acelera el paso hacia agentes de voz verdaderamente conversacionales, reduciendo latencia cognitiva y técnica, y acercando la Voice AI a dinámicas humanas en asistentes, juegos y sistemas interactivos.
ClawdBot: el salto del chatbot pasivo al agente autónomo local-first
ClawdBot es un asistente personal de IA open source y autohospedado que opera como agente autónomo 24/7. A diferencia de los chatbots tradicionales, se ejecuta en tu propio hardware e interactúa directamente con el sistema operativo y aplicaciones de mensajería.
🔑 Claves del avance
De chat a agente proactivo: no espera órdenes puntuales; ejecuta tareas, flujos y cron jobs de forma continua.
Integración directa en mensajería: interacción vía WhatsApp, Telegram, Discord, Slack o Signal, sin depender de interfaces web.
Control real del sistema: dispone de skills para navegar la web, ejecutar comandos, gestionar archivos y acceder a cámara o pantalla.
Filosofía local-first: control total de datos y del gateway, con instalación en Mac, Linux, Windows/WSL2, VPS o hardware modesto.
Ecosistema hardware eficiente: popularizado en Mac Mini M4 por su bajo consumo (5–7W en reposo), aunque funciona en Raspberry Pi o PCs antiguos.
🎯 ClawdBot encaja en la evolución hacia agentes persistentes y locales: sistemas que automatizan trabajo real con control y privacidad, anticipando un futuro donde la IA actúa como infraestructura personal siempre activa.
ChatGPT resuelve más problemas matemáticos
El uso de ChatGPT en matemáticas está evolucionando en dos direcciones complementarias: como herramienta de aprendizaje y colaboración humana y como sistema capaz de rendir en benchmarks matemáticos de alta dificultad, antes reservados a expertos.
🔑 Claves
Otro problema de Erdős resuelto con ayuda de ChatGPT
Enrique Barschkis, un joven de 17 años, ha resuelto el problema de Erdős #347 con la ayuda de ChatGPT. Su solución ha sido confirmada por matemáticos destacados como Terence Tao. Además, Barschkis la ha formalizado en el demostrador Lean.
GPT-5.2 Pro alcanzó un 31 % de aciertos en FrontierMath Tier 4
Epoch AI ha evaluado a GPT-5.2 Pro en el benchmark FrontierMath Tier 4, obteniendo un 31 % de aciertos frente al anterior récord del 19 %. Tier 4 agrupa problemas especialmente exigentes, cercanos a investigación, y el salto supone una mejora significativa en la capacidad de los modelos para navegar matemáticas avanzadas de forma consistente.
🎯 Los modelos de IA están desarrollándose como colaborador matemático y como sistema de rendimiento en frontera, reforzando aprendizaje, verificación y productividad sin sustituir, por ahora al menos, a la creatividad humana.
Robots
China acelera su liderazgo en robótica humanoide y embodied intelligence
China refuerza su posición dominante en robótica avanzada tras los últimos datos publicados por su Ministerio de Industria y por firmas de análisis de mercado, mostrando una expansión rápida tanto en inversión como en despliegue industrial.
🔑 Claves del avance
Inversión masiva en embodied intelligence: el sector de robótica integrada con IA atrajo más de 40.000 millones de yuanes en financiación, con más de 350 empresas activas, según el MIIT.
Explosión de fabricantes humanoides: los productores nacionales superan ya los 140, con más de 330 modelos de robots humanoides lanzados al mercado.
Escala productiva real: China no solo prototipa; industrializa, reduciendo tiempos entre laboratorio y fabricación.
Ventaja en despliegue global: un informe de Omdia indica que los envíos globales de humanoides chinos superaron las 13.000 unidades.
Ecosistema coordinado: inversión pública, empresas privadas y estrategia estatal avanzan alineadas.
🎯 China está convirtiendo la robótica humanoide en industria a escala, acelerando la convergencia entre IA y hardware. Esta ventaja sistémica puede redefinir cadenas de valor, automatización laboral y liderazgo tecnológico global en la próxima década.
