Boletín Semanal Best-IA #94

Aprende IA, día a día

Tutoriales

Crea Asistentes Gratis con Google Gems

Noticias

DeepSeek R1 se refuerza: más razonamiento, menos errores

  • La nueva versión del modelo DeepSeek R1, DeepSeek-R1-0528, ha mejorado de forma notable sus capacidades de razonamiento e inferencia gracias a más recursos computacionales y una optimización algorítmica en su fase post-entrenamiento. Con estos avances, su rendimiento se aproxima al de los modelos punteros como OpenAI o3 y Gemini 2.5 Pro.

  • 🔍 Tres claves de la actualización de DeepSeek R1

    • 1. Más tokens, mejor razonamiento

      • El modelo ha duplicado la cantidad media de tokens usados en pruebas complejas como el AIME (de 12K a 23K por pregunta), lo que permite un análisis más profundo y preciso.

      • Resultado: su precisión en AIME 2025 ha pasado del 70% al 87,5%.

    • 2. Resultados destacados en benchmarks

      • Mejoras significativas en programación (LiveCodeBench: de 63,5 a 73,3), matemáticas (HMMT: de 41,7 a 79,4) y razonamiento general (GPQA-Diamond: de 71,5 a 81).

      • Incluso en tareas de razonamiento extremo como Humanity’s Last Exam, su puntuación se ha duplicado (de 8,5 a 17,7).

    • 3. Transferencia de pensamiento a modelos más pequeños

      • El equipo ha destilado su "chain-of-thought" en el modelo Qwen3-8B, que ahora supera a otros modelos open-source en AIME 2024, igualando al Qwen3-235B.

      • Esto abre camino a modelos compactos con alto rendimiento lógico.

  • Esta actualización consolida a DeepSeek como una referencia en modelos de razonamiento profundo, tanto para la investigación como para aplicaciones industriales. Además, demuestra que la destilación inteligente de grandes modelos puede beneficiar enormemente a los más ligeros.

  • LINK: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

Mistral lanza su Agents API: agentes de IA prácticos y orquestados

  • Mistral AI ha presentado su Agents API, una plataforma diseñada para llevar los modelos de lenguaje más allá de la generación de texto, permitiéndoles actuar, coordinar tareas complejas y mantener memoria en múltiples interacciones. Esta API marca el avance de Mistral hacia agentes de IA verdaderamente útiles en entornos reales.

  • 🔑 Tres claves del lanzamiento:

    1. Conectores integrados y herramientas MCP:
      Los agentes pueden ejecutar código, buscar en la web, generar imágenes y usar bibliotecas de documentos gracias a conectores listos para usar. Además, el protocolo MCP permite la integración con APIs, bases de datos y sistemas externos para enriquecer el contexto de la conversación.

    2. Memoria persistente y gestión de conversaciones:
      Cada conversación mantiene su historial y puede ramificarse o retomarse en cualquier punto. Esto permite interacciones prolongadas, coherentes y adaptativas, ideales para tareas empresariales o flujos de trabajo complejos.

    3. Orquestación multiagente y workflows colaborativos:
      La API permite coordinar múltiples agentes especializados en un mismo flujo, con traspasos dinámicos de tareas. Esto abre la puerta a soluciones sofisticadas como asistentes financieros, herramientas de desarrollo de software o asistentes personales que planifican viajes de principio a fin.

  • Este avance refuerza la utilidad práctica de los modelos de lenguaje, convirtiéndolos en agentes activos que no solo responden, sino que ejecutan, recuerdan y colaboran para resolver problemas del mundo real.

FLUX.1 Kontext: edición de imágenes con IA en contexto y a velocidad récord

  • Black Forest Labs ha lanzado FLUX.1 Kontext, una nueva familia de modelos de imagen generativa que combina texto e imágenes para crear y editar escenas visuales con coherencia, rapidez y fidelidad. Esta herramienta marca una evolución importante respecto a los modelos tradicionales de texto-a-imagen.

  • Tres claves de FLUX.1 Kontext:

    1. Edición iterativa y en contexto
      FLUX.1 permite editar imágenes paso a paso mediante instrucciones en lenguaje natural. Se puede conservar el estilo, los personajes y elementos clave a lo largo de múltiples transformaciones, con una latencia mínima y sin necesidad de reentrenar modelos.

    2. Versatilidad multimodal
      A diferencia de modelos previos, FLUX.1 Kontext acepta imágenes como entrada junto al texto. Esto habilita ediciones locales (modificaciones específicas dentro de una imagen), generación de nuevas escenas con el estilo de una imagen previa, y transformaciones complejas sin perder coherencia visual.

    3. Rendimiento superior en velocidad y precisión
      FLUX.1 Kontext [pro] y [max] destacan por su rapidez (hasta 8 veces más rápidos que los modelos líderes) y su precisión en tareas como edición de texto dentro de imágenes, preservación de personajes y generación fotorealista. Además, los benchmarks muestran que superan a competidores en calidad y respuesta.

  • FLUX.1 Kontext abre nuevas posibilidades para diseñadores, desarrolladores y artistas que necesitan generar contenido visual con rapidez y control.

🧠Droids de Factory: Agentes de IA para desarrollo de software de principio a fin

  • Factory ha lanzado Droids, agentes inteligentes diseñados para automatizar todo el ciclo de desarrollo de software. Estos asistentes ya están disponibles para empresas y se integran con herramientas clave como GitHub, Slack y Notion.

  • 🔍 Tres puntos clave:

    1. Automatización total del desarrollo
      Los Droids pueden escribir código desde cero a partir de un ticket o especificación, gestionar múltiples tareas a la vez, y entregar funcionalidades listas para producción sin intervención humana.

    2. Gestión inteligente del ciclo de vida
      Además de programar, los Droids resuelven incidencias, redactan documentos de producto, investigan en profundidad en bases de código, revisan pull requests y organizan tickets como lo haría un project manager.

    3. Pensado para empresas exigentes
      Plataformas como MongoDB y Zapier ya están usando Factory para acelerar su desarrollo. El servicio cuesta 40 $/mes (10 $/usuario adicional) y ofrece 14 días de prueba gratuita.

  • 🎯 Factory marca un paso importante hacia la integración real de IA agéntica en el desarrollo profesional, reduciendo tiempos y multiplicando la productividad de los equipos de ingeniería.

  • LINK: https://www.factory.ai/

Darwin Gödel Machine: el agente que reescribe su propio código para volverse más inteligente

  • Una de las fronteras más ambiciosas en inteligencia artificial acaba de ser cruzada por Sakana AI y el laboratorio de Jeff Clune. Presentan la Darwin Gödel Machine (DGM), un agente capaz de modificarse a sí mismo para mejorar su rendimiento. Inspirado en la evolución biológica, este enfoque marca un hito en el desarrollo de agentes verdaderamente adaptativos.

  • Tres claves para entender la DGM

    1. Evolución algorítmica como principio motor
      A diferencia de los agentes tradicionales, que permanecen estáticos tras ser desplegados, la DGM evoluciona su propio código a lo largo del tiempo. Al mantener una “línea evolutiva” de variantes, el sistema puede explorar soluciones incluso cuando estas representen retrocesos temporales, con la lógica de que algunos errores abren el camino a grandes innovaciones.

    2. Mejoras automáticas en benchmarks reales
      La DGM logró aumentar su rendimiento del 20% al 50% en SWE-bench (una suite para evaluar habilidades de ingeniería de software) y del 14,2% al 30,7% en Polyglot, superando ampliamente a agentes diseñados manualmente. Esta mejora no fue dirigida por humanos, sino resultado del propio proceso de evolución interna.

    3. Transferencia entre modelos y lenguajes
      Lo más llamativo es que los agentes generados no solo mejoran en un contexto específico: sus mejoras son transferibles entre modelos fundacionales (por ejemplo, de Claude a o3-mini) y entre dominios de programación (como de Python a Rust o C++), lo que sugiere un alto grado de generalización.

  • Darwin Gödel Machine demuestra que es posible crear sistemas de IA que no sólo aprenden, sino que aprenden a aprender mejor por sí solos. Este enfoque podría allanar el camino hacia una IA con capacidades de mejora continua, sin necesidad de intervención humana constante.

  • LINK: https://sakana.ai/dgm/

  • PAPER: https://arxiv.org/abs/2505.22954, arxiv.org/abs/2505.22954

  • CÓDIGO: https://github.com/jennyzzt/dgm

Retool Agents: LLMs que ya han automatizado 100 millones de horas de trabajo

  • La era del “copiar y pegar” ha terminado. Retool presenta una solución que transforma los modelos de lenguaje en trabajadores autónomos, integrados directamente con las herramientas empresariales existentes.

  • Tres ideas clave:

    1. De asistentes a trabajadores reales
      Los LLMs actuales piensan rápido, pero están ciegos y paralizados: no pueden acceder ni ejecutar acciones en los sistemas reales. Retool Agents soluciona esto dándoles "ojos y manos", permitiéndoles interactuar con bases de datos, APIs y flujos empresariales.

    2. Razonan como humanos, actúan como código
      La clave no es solo que piensen bien, sino que ejecuten con precisión. Los agentes de Retool separan el razonamiento creativo de la acción determinista, ejecutando tareas críticas como procesamiento de reembolsos de forma autónoma y trazable.

    3. Auditoría total y eficiencia escalable
      Cada acción de un agente se puede observar y reproducir. Esto convierte el trabajo del conocimiento en algo auditable por completo, y escalable sin pérdida de calidad —al contrario que los equipos humanos, que tienden al caos con el crecimiento.

  • Retool plantea una visión clara: los LLMs ya no son solo herramientas para escribir, sino fuerza laboral digital integrada. Esta automatización masiva redefine la productividad empresarial y anticipa un cambio profundo en el trabajo del conocimiento.

  • LINK: https://retool.com/blog/retool-automates-100-million-hours-of-work-launching-agents

Zochi: La primera IA en publicar un paper en la conferencia más importante de NLP

  • Zochi, el agente científico de Intology, acaba de marcar un antes y un después: ha logrado que un paper generado de forma autónoma sea aceptado en ACL 2025, la conferencia de mayor prestigio en procesamiento del lenguaje natural. Es la primera vez que una IA supera el proceso de revisión por pares en un evento de esta categoría, y lo ha hecho sin intervención humana en el núcleo del trabajo científico.

  • Tres claves:

    1. Un hito para la investigación autónoma:
      Zochi no es un asistente. Es un sistema capaz de realizar todo el método científico: lectura de literatura, formulación de hipótesis, diseño experimental, validación rigurosa y redacción del artículo. Su paper fue aceptado en la conferencia principal con una puntuación que lo sitúa en el top 8,2% de todas las propuestas enviadas.

    2. Tempest: hackeo conversacional con árbol de decisiones:
      El trabajo publicado se titula Tempest, y explora cómo los modelos de lenguaje pueden ser vulnerables a ataques multietapa (multi-turn jailbreaks). Zochi ideó una técnica que ramifica múltiples prompts adversarios, con aprendizaje cruzado entre ramas, logrando tasas de éxito del 100% en GPT-3.5 y 97% en GPT-4.

    3. Zochi como copiloto, no reemplazo:
      Aunque la publicación demuestra que Zochi puede investigar sin ayuda, Intology planea lanzarlo como copiloto colaborativo. Ayudará a humanos a formular hipótesis, redactar papers, diseñar experimentos y acelerar el ciclo de descubrimiento, sin reemplazar el rol ético ni la supervisión humana.

  • Este logro redefine los límites de la creatividad científica. Zochi no solo automatiza tareas: contribuye con descubrimientos originales. Abre la puerta a una nueva era de colaboración humano-IA que podría revolucionar la investigación académica.

  • LINK: https://www.intology.ai/blog/zochi-acl

  • PAPER: https://arxiv.org/pdf/2503.10619

Google DeepMind anuncia dos nuevos modelos Gemma

  • SignGemma para convertir la lengua de signos en palabras habladas, que llegará este año.

  • MedGemma, un modelo multimodal de 4B de parámetros y un modelo de 27B de solo texto para la comprensión de textos e imágenes médicas.

Perplexity lanza Labs, una nueva herramienta para crear aplicaciones interactivas

  • Utiliza Deep Research junto con herramientas como generación de imágenes para crear de todo, desde informes analíticos hasta sitios web.

  • Disponible solo para usuarios de Perplexity Pro en iOS, Android y la web.

Robots

EgoZero

  • EgoZero ejemplifica cómo las demostraciones humanas en primera persona pueden empoderar a los robots para aprender diversas tareas de manipulación sin capacitación directa.

  • PAPER: https://arxiv.org/abs/2505.20290

Percepción y adaptabilidad | Dentro del laboratorio con Atlas

  • Para que un robot humanoide tenga éxito y sea aplicable en una fábrica, un almacén o incluso en casa, se requiere una comprensión integral del mundo que lo rodea, tanto de la forma como del contexto de los objetos y entornos con los que interactúa. Para realizar estas tareas con agilidad y adaptabilidad, Atlas necesita un sistema de percepción igualmente ágil y adaptable.

Reflexiones Finales

Dario Amodei: En 1-5 años, probablemente casi todos los trabajos de nivel básico desaparecerán