- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #81
Boletín Semanal Best-IA #81
Aprende IA, día a día.
Noticias
Claude 3.7 Sonnet: IA que piensa antes de responder
Anthropic ha presentado Claude 3.7 Sonnet, su modelo de IA más avanzado hasta la fecha, destacando como el primer modelo de razonamiento híbrido del mercado. Ahora, los usuarios pueden elegir entre respuestas rápidas o reflexiones más profundas, con la posibilidad de ajustar cuánto tiempo "piensa" el modelo antes de responder.
Tres mejoras clave:
Mayor control sobre el razonamiento: Los usuarios pueden establecer límites en la cantidad de tokens que Claude emplea para pensar, equilibrando velocidad y precisión.
Liderazgo en programación: Claude 3.7 Sonnet ha superado a sus competidores en tareas de desarrollo web y gestión de código, con mejoras notables en la integración con GitHub y la generación de código limpio y funcional.
Claude Code: asistente de codificación: Presentado en una vista previa limitada, permite editar archivos, ejecutar pruebas y automatizar tareas directamente desde la terminal, reduciendo drásticamente el tiempo de desarrollo.
Este avance no solo hace que la IA sea más útil para tareas reales, sino que redefine cómo interactuamos con modelos de lenguaje. Claude 3.7 Sonnet se acerca más a la autonomía en la resolución de problemas, combinando rapidez con un análisis profundo. Para desarrolladores y empresas, esto significa más eficiencia y menos errores, con un asistente de codificación que puede convertirse en un colaborador indispensable.
🔗 Disponible en todos los planes de Claude, API de Anthropic, Amazon Bedrock y Google Cloud Vertex AI.
OpenAI Lanza GPT-4.5
OpenAI ha lanzado una vista previa de investigación de GPT-4.5, su modelo de IA más avanzado hasta el momento. Esta versión amplía el pre-entrenamiento y post-entrenamiento con un enfoque en aprendizaje no supervisado, lo que mejora su capacidad para reconocer patrones, generar ideas creativas y reducir alucinaciones.
Tres Aspectos Claves de GPT-4.5:
Mayor Comprensión y Naturalidad en Conversaciones GPT-4.5 ha mejorado en la interpretación de matices y expectativas implícitas de los usuarios. Con una mayor "inteligencia emocional" y conocimientos más amplios, el modelo se siente más intuitivo y colaborativo, siendo útil para escritura, programación y solución de problemas.
Escalabilidad y Aprendizaje No Supervisado Este modelo se entrena en supercomputadoras de Microsoft Azure, utilizando nuevas técnicas de optimización y arquitectura. Esto le permite una mejor comprensión del mundo y mayor confiabilidad en respuestas, minimizando errores y alucinaciones.
Disponibilidad y Aplicaciones GPT-4.5 ya está disponible para usuarios de ChatGPT Pro y pronto llegará a Plus, Team y Enterprise. También se encuentra en fase de prueba para desarrolladores a través de la API de OpenAI, con capacidades mejoradas en planificación, ejecución de tareas complejas y generación de código.
GPT-4.5 marca un paso adelante en la evolución de la IA al mejorar la interacción con humanos y la precisión de sus respuestas. Su enfoque en el aprendizaje no supervisado allana el camino para futuras mejoras en razonamiento y toma de decisiones automatizada. A medida que OpenAI refina estas capacidades, el impacto de la IA en la creatividad, la automatización y la resolución de problemas seguirá expandiéndose, ofreciendo nuevas oportunidades en múltiples sectores.
Wan2.1: Alibaba redefine la generación de video con IA
Alibaba acaba de lanzar Wan2.1, un modelo de código abierto que se coloca #1 en VBench, superando tanto a modelos comerciales como open-source en generación de video. Con capacidades avanzadas en simulación de física, dinámicas de movimiento y renderizado de texto, este modelo promete revolucionar la creación audiovisual con IA.
Tres claves sobre Wan2.1
🎥 Rendimiento superior y accesible
Wan2.1 no solo supera a otros modelos en benchmarks, sino que su variante T2V-1.3B requiere apenas 8.19 GB de VRAM, permitiendo generar videos en una RTX 4090 en solo 4 minutos sin optimización.🛠️ Versatilidad en generación de contenido
Este modelo no se limita a Texto a Video, también domina Imagen a Video, Edición de Video, Texto a Imagen y Video a Audio, ampliando sus aplicaciones creativas.🔠 Primer modelo con generación de texto visual en video
Wan2.1 es el primer modelo capaz de generar texto en video en chino e inglés, lo que lo hace ideal para subtítulos, branding y animaciones personalizadas.
Wan2.1 pone la generación de video de alta calidad al alcance de más creadores, eliminando la barrera del hardware costoso y desafiando a soluciones cerradas. Su precisión en la simulación de movimiento y su capacidad para generar texto dentro de los videos lo convierten en un game-changer en la producción de contenido digital.
❶ 🏆 Wan2.1-T2V-14B
• #1 on VBench leaderboard, outperforming SOTA open-source & commercial models
• Mastery in complex motion dynamics & physics simulation & text rendering...— Wan (@Alibaba_Wan)
2:20 PM • Feb 25, 2025
HUGGINFACE: https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
Amazon Reinventa Alexa con IA Generativa: Llega Alexa+
Amazon acaba de presentar la mayor actualización de Alexa desde su lanzamiento en 2014. La nueva versión, llamada Alexa+, incorpora inteligencia artificial generativa para hacerla más conversacional y proactiva. Esta apuesta busca revitalizar el uso de los asistentes de voz en un mercado donde la competencia de Apple y Google no deja de crecer.
Puntos clave:
Un Asistente Más Inteligente y Personalizado
Alexa+ podrá recordar preferencias de los usuarios, como restricciones alimenticias o hábitos de entretenimiento, y ofrecer respuestas más naturales y precisas. También permitirá realizar acciones más complejas, como hacer reservas o gestionar tareas del hogar sin intervención directa del usuario.Mayor Integración con el Ecosistema de Amazon
El asistente se vinculará aún más con dispositivos de Amazon, como Ring y Echo, para mejorar la experiencia en el hogar inteligente. Además, utilizará la plataforma Bedrock para seleccionar los mejores modelos de IA en cada tarea, contando con el respaldo de Anthropic y su modelo Claude.Nuevo Modelo de Suscripción
Alexa+ será gratuito para usuarios de Amazon Prime, mientras que los no suscriptores deberán pagar $19.99 al mes. Aunque se barajaron precios más bajos, Amazon apuesta por este modelo premium para rentabilizar su inversión de $8,000 millones en Anthropic.
Este movimiento de Amazon no solo busca modernizar un asistente que había perdido relevancia, sino que también redefine la utilidad de la IA en el día a día. Si Alexa+ logra cumplir sus promesas, podría marcar un antes y un después en la automatización del hogar y la interacción con la tecnología. Sin embargo, los problemas detectados en la demo dejan dudas sobre su rendimiento real.
La guerra de los asistentes de voz con IA acaba de subir de nivel.
Claude will help power Amazon's next-generation AI assistant, Alexa+.
Amazon and Anthropic have worked closely together over the past year, with @mikeyk leading a team that helped Amazon get the full benefits of Claude's capabilities.
— Anthropic (@AnthropicAI)
5:13 PM • Feb 26, 2025
Microsoft Lanza Phi-4-Multimodal y Phi-4-Mini: Avance en Modelos de IA Compactos
Microsoft ha presentado Phi-4-Multimodal y Phi-4-Mini, dos nuevos modelos de la familia Phi diseñados para impulsar el desarrollo de IA en entornos con recursos limitados. Con capacidades avanzadas de razonamiento y procesamiento de múltiples formatos, estos modelos prometen mejorar la eficiencia y accesibilidad de la inteligencia artificial.
Puntos clave:
Phi-4-Multimodal: IA Integral para Voz, Imagen y Texto
Este modelo de 5.6 mil millones de parámetros permite interpretar lenguaje hablado, analizar imágenes y procesar texto en una única arquitectura. Su diseño optimizado para dispositivos y computación en el borde reduce la latencia y los costos computacionales. Se perfila como un actor clave en aplicaciones de asistentes virtuales, reconocimiento visual y análisis documental.Phi-4-Mini: Máxima Eficiencia en Tareas de Texto
Con 3.8 mil millones de parámetros, Phi-4-Mini sobresale en razonamiento, matemáticas, programación y seguimiento de instrucciones. Su diseño compacto lo hace ideal para integrarse en dispositivos con capacidad de cómputo limitada, manteniendo un alto rendimiento en tareas complejas como generación de código y procesamiento de lenguaje natural.Aplicaciones y Seguridad
Estos modelos pueden integrarse en smartphones, vehículos y servicios financieros, proporcionando traducción en tiempo real, análisis de imágenes y automatización avanzada. Además, Microsoft ha implementado pruebas de seguridad con su AI Red Team para garantizar un uso seguro y responsable.
Phi-4-Multimodal y Phi-4-Mini refuerzan la tendencia hacia modelos más pequeños, eficientes y accesibles. Su enfoque multimodal y su capacidad de ejecución en dispositivos con recursos limitados los convierten en herramientas clave para el futuro de la IA. Microsoft sigue apostando por una IA más integrada y segura en múltiples industrias.
LINK: https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family/
Proxy Lite: Automatización web con IA de código abierto
Convergence AI acaba de dar un gran salto con Proxy Lite, un modelo de visión-lenguaje (VLM) de solo 3B parámetros que logra resultados sobresalientes en tareas de navegación web con una fracción del costo computacional de otras soluciones. Su código abierto y su marco de control avanzado lo hacen una herramienta prometedora para investigadores y desarrolladores.
Tres claves sobre Proxy Lite
Estructura modular para una mejor toma de decisiones
Proxy Lite descompone sus respuestas en tres pasos: observación, razonamiento y acción, lo que le permite mejorar su desempeño en tareas complejas.Resultados de alto nivel en automatización web
Pruebas en la suite WebVoyager muestran tasas de éxito notables en plataformas como Allrecipes (87.8%), GitHub (85.0%) y Cambridge Dictionary (86.0%), superando a muchos competidores.Competencia con modelos más grandes gracias a su entrenamiento
A pesar de su tamaño compacto, Proxy Lite demuestra que un entrenamiento optimizado puede igualar o incluso superar a modelos con más parámetros.
Proxy Lite marca un paso adelante en la automatización web con IA, democratizando el acceso a herramientas avanzadas sin depender de gigantes tecnológicos. Su capacidad para entender, razonar y actuar en la web abre nuevas posibilidades en investigación, comercio y automatización de procesos digitales. Un avance que deja claro que más grande no siempre significa mejor.
Sesame AI: Superando el Valle Inquietante de la Voz Conversacional
Los asistentes de voz actuales carecen de la expresividad necesaria para convertirse en verdaderos compañeros conversacionales. Sesame AI busca cambiar esto con su modelo de Conversational Speech Model (CSM), diseñado para generar interacciones más naturales y emocionalmente inteligentes.
Tres puntos clave del avance:
Presencia de voz realista
Sesame trabaja en la creación de asistentes que no solo responden, sino que comprenden y reaccionan de manera natural. Esto implica mejoras en la inteligencia emocional, el contexto de la conversación y la coherencia en el tono.Modelo CSM: Más allá del texto a voz tradicional
En lugar de simplemente convertir texto en audio, el CSM utiliza transformers multimodales que incorporan la historia de la conversación y la expresividad en tiempo real. Esto reduce el problema del "uno-a-muchos" en la generación de voz, donde hay múltiples formas correctas de decir una frase, pero solo algunas encajan en cada contexto.Evaluación y mejoras continuas
Para medir el realismo de su tecnología, Sesame ha desarrollado nuevas métricas que van más allá del clásico Word Error Rate (WER), evaluando pronunciación contextual, continuidad de prosodia y naturalidad conversacional. Aunque el modelo ya compite con la voz humana en términos de calidad, aún hay margen de mejora en la adaptación al contexto.
La voz es una interfaz clave para la IA del futuro. Lograr asistentes capaces de entender y responder con naturalidad abrirá puertas a nuevas aplicaciones en educación, salud y entretenimiento. Sesame apuesta por la transparencia y el avance colaborativo, anunciando que liberará parte de su código bajo licencia Apache 2.0 para que la comunidad pueda contribuir y perfeccionar la tecnología.
Robots
Hi Robot: Robots que Piensan en Voz Alta
¿Pueden los robots “hablarse” a sí mismos para resolver problemas complejos? Un nuevo sistema llamado Hierarchical Interactive Robot (Hi Robot) propone una solución inspirada en la psicología humana: separar la toma de decisiones en dos niveles, imitando el pensamiento rápido e instintivo (Sistema 1) y el pensamiento lento y deliberativo (Sistema 2). Este enfoque mejora la capacidad de los robots para realizar tareas complejas y adaptarse a nuevas situaciones mediante instrucciones en lenguaje natural.
Tres puntos clave sobre Hi Robot:
División en dos sistemas de pensamiento
Hi Robot utiliza un modelo de visión-lenguaje-acción (VLA) llamado π0 para manejar tareas rutinarias y automatizadas, mientras que un modelo de alto nivel basado en visión-lenguaje (VLM) actúa como el "pensamiento consciente", descomponiendo instrucciones complejas en pasos más simples. Esto permite a los robots procesar indicaciones detalladas, como “levanta una rebanada de pan integral”.Capacidad de adaptación en tiempo real
Gracias a la estructura jerárquica de Hi Robot, los robots pueden interpretar comentarios contextuales mientras trabajan. Por ejemplo, si un usuario dice “eso no es basura”, el robot ajusta su acción, entendiendo a qué objeto se refiere y cambiando su decisión en consecuencia.Entrenamiento con datos sintéticos
Para mejorar la comprensión de instrucciones complejas, Hi Robot utiliza conjuntos de datos sintéticos, donde se emparejan observaciones robóticas con instrucciones humanas hipotéticas. Esto ayuda a los modelos a aprender cómo reaccionar ante órdenes ambiguas o interacciones más naturales con los usuarios.
Este avance abre la puerta a robots más intuitivos y adaptables, capaces de comprender el contexto y tomar decisiones más inteligentes en entornos reales. La capacidad de razonar en voz alta y dividir tareas en pequeños pasos hace que estos sistemas sean más versátiles y efectivos en la asistencia doméstica, la automatización industrial y la interacción humano-robot. Hi Robot representa un paso clave hacia máquinas que no solo ejecutan órdenes, sino que también las comprenden.
Vision-language models can control robots, but what if the prompt is too complex for the robot to follow directly?
We developed a way to get robots to “think through” complex instructions, feedback, and interjections. We call it the Hierarchical Interactive Robot (Hi Robot).
— Physical Intelligence (@physical_int)
7:17 PM • Feb 26, 2025