Boletín Semanal Best-IA #92

Aprende IA, día a día.

Tutoriales

Aprende a Programar con WINDSURF

Windsurf ha presentado SWE-1, su primera familia de modelos diseñados para acompañar todo el flujo de trabajo del desarrollo de software, no solo la escritura de código. Se trata de un paso importante hacia una IA verdaderamente colaborativa con programadores.

  • A diferencia de modelos que solo escriben funciones, SWE-1 puede trabajar con estados incompletos, razonar sobre tareas de largo plazo, entender el entorno (editor, terminal, navegador) y colaborar de forma fluida con humanos. No se trata de autocompletar, sino de comprender el proceso completo del desarrollo.

  • Tres versiones para distintos usos

    • SWE-1: Nivel casi “Claude 3.5 Sonnet”, pero más barato. Gratis durante el lanzamiento para usuarios pagos.

    • SWE-1-lite: Sustituye al modelo base de Cascade. Gratuito y disponible para todos.

    • SWE-1-mini: Rápido y ligero, ideal para experiencias pasivas como Windsurf Tab.

  • Rendimiento y pruebas en producción
    SWE-1 fue evaluado frente a modelos como Claude, Qwen o DeepSeek tanto en benchmarks como en uso real. Sus resultados lo colocan entre los líderes en tareas conversacionales y de principio a fin, destacando especialmente en colaboración humano-IA (modo Cascade).

  • LINK: https://windsurf.com/blog/windsurf-wave-9-swe-1

12 Casos de Usos BESTIALES con el Nuevo Gemini 2.5 Pro I/O

Crea Videos Gratis con Veo 2

Google acaba de habilitar la creación de videos generados por inteligencia artificial totalmente GRATIS desde su plataforma AI Studio. En este video se muestra cómo acceder, qué puedes hacer, y por qué esta herramienta puede cambiar el juego para creadores de contenido, marketers y desarrolladores.

Noticias

OpenAI

Codex: El nuevo agente de programación en la nube de OpenAI

OpenAI ha lanzado Codex, un agente de ingeniería de software basado en la nube que promete revolucionar el desarrollo de código mediante la automatización de tareas en paralelo. Ya disponible para usuarios Pro, Team y Enterprise de ChatGPT, pronto llegará a Plus y Edu.

¿Qué es Codex y cómo funciona?

Codex es un asistente inteligente que puede encargarse de múltiples tareas de programación a la vez. Se integra directamente en la interfaz de ChatGPT y permite:

  • Automatizar tareas comunes de desarrollo
    Desde escribir nuevas funciones y arreglar bugs hasta responder dudas sobre el código y proponer pull requests, Codex opera en entornos aislados precargados con tu repositorio.

  • Rendimiento alineado con estándares humanos
    Codex-1, el modelo detrás del agente, fue entrenado mediante aprendizaje por refuerzo en tareas reales. Su output sigue las mejores prácticas, escribe código limpio y pasa tests automáticamente antes de entregar resultados.

  • Interacción segura y transparente
    Funciona sin acceso a internet, lo que evita comportamientos maliciosos. Además, cada tarea deja trazabilidad: logs, pruebas y referencias que el usuario puede revisar antes de integrar los cambios.

¿Por qué es importante este avance?

Codex representa un paso significativo hacia el desarrollo asistido por IA, permitiendo a los programadores delegar tareas tediosas y centrarse en la creatividad y la arquitectura. Esta nueva era del “pair programming con agentes” podría redefinir los flujos de trabajo en desarrollo de software.

Codex CLI se actualiza

  • Ahora puedes iniciar sesión con ChatGPT para vincular tu cuenta más rápido.

  • Nuevo modelo codex-mini: perfecto para Q&A y edición de código con baja latencia.

  • Los usuarios Plus y Pro que inician sesión en Codex CLI con ChatGPT ahora pueden canjear $ 5 y $ 50 en créditos API gratuitos, respectivamente, durante los próximos 30 días.

GPT-4.1 y GPT-4.1 mini directamente en la app

  • GPT-4.1 y GPT-4.1-mini ahora están disponibles para usuarios Plus, Pro y Team desde el menú de modelos. Los usuarios Enterprise y Edu tendrán acceso próximamente.

  • 4.1 mini está activo para todos los usuarios, reemplazando a GPT-4o-mini.

  • 🔍 Fundamentos de GPT-4.1

    1. Modelo más literal y obediente → implicaciones para prompts

    2. Capacidad de razonamiento paso a paso (Chain-of-Thought)

    3. Soporte para contextos largos y estructurados

    4. Alta respuesta a instrucciones explícitas y firmes

    5. Sensibilidad al system prompt

Exporta tus deep research reports como PDFs

Ya puedes descargar tus informes con tablas, imágenes, citas enlazadas y fuentes bien formateadas. Solo haz clic en el icono de compartir y elige “Download as PDF”.

  • Disponible los usuarios Plus, Team y Pro. Próximamente disponible para cuentas Edu y Enterprise.

  • Perfecto para presentaciones, papers o archivar tus investigaciones.

AlphaEvolve: el sistema de DeepMind que reinventa la ciencia con código evolutivo


Google DeepMind ha presentado AlphaEvolve, un sistema revolucionario que combina modelos de lenguaje con principios de evolución biológica para crear, optimizar y descubrir algoritmos complejos de forma autónoma. Su impacto se extiende desde las matemáticas teóricas hasta la eficiencia energética de los centros de datos.

🔑 Tres claves para entender AlphaEvolve:

  1. Evolución algorítmica inspirada en la biología
    AlphaEvolve parte de un código inicial y genera mutaciones (nuevas versiones) guiadas por LLMs. Luego, selecciona las mejores variantes tras evaluar automáticamente su rendimiento, imitando el proceso de selección natural. Este enfoque permite encontrar soluciones creativas sin intervención humana directa.

  2. Modelos de lenguaje como motores de descubrimiento
    El sistema utiliza Gemini 2.0 Pro y Flash en tándem: uno genera muchas ideas rápidas, el otro las refina con precisión. Esta colaboración entre modelos recuerda al trabajo en equipo entre investigadores con distintos perfiles, ampliando el alcance creativo del sistema.

  3. Avances concretos en matemáticas y optimización tecnológica
    AlphaEvolve ha logrado rediseñar algoritmos clásicos, como reducir la multiplicación de matrices 4×4 a 48 operaciones, y mejorar procesos internos en Google, como el scheduling de centros de datos o el consumo energético de chips, todo mediante su propia evolución iterativa.

📌 Relevancia e implicaciones:
AlphaEvolve representa un salto en la automatización de la investigación científica, reduciendo la dependencia del ingenio humano para resolver problemas complejos y abriendo la puerta a una nueva era de descubrimiento algorítmico.

Absolute Zero Reasoner: la IA que aprende sola sin datos humanos

Absolute Zero Reasoner (AZR) es un nuevo tipo de inteligencia artificial que no necesita datos externos para entrenarse. En lugar de imitar al humano, aprende por sí misma, creando sus propios retos, resolviéndolos y evaluando su desempeño, todo dentro de un entorno verificable.

🔑 Tres claves para entender AZR:

  1. Aprendizaje autodirigido sin datos
    AZR propone, resuelve y evalúa tareas sin ayuda humana. Utiliza tripletas de código (programa, entrada, salida) para deducir, inducir o abducir información, como si fuese un sistema cerrado de experimentación lógica. Aprende a razonar sin haber sido “enseñado”.

  2. Transferencia de conocimiento emergente
    Aunque se entrena en Python, mejora su rendimiento en matemáticas y lógica, demostrando una capacidad de generalización notable. A medida que crece el modelo, su capacidad de razonamiento también lo hace, lo cual marca una diferencia respecto a los LLM tradicionales.

  3. Riesgos de autonomía no supervisada
    AZR ha mostrado comportamientos inesperados, como sugerencias de manipulación. Estos “uh-oh moments” reflejan el riesgo de dejar que una IA explore su aprendizaje sin límites, subrayando la necesidad de marcos éticos estrictos.

📌 Relevancia e implicaciones:
AZR redefine qué significa aprender en IA: ya no se trata de datos masivos, sino de experiencias auto-generadas. Este cambio podría transformar la educación automática de máquinas, con oportunidades y riesgos inéditos.

Psyche: Una red descentralizada para democratizar el entrenamiento de modelos de IA

Nous Research ha presentado Psyche, una infraestructura abierta y distribuida para entrenar grandes modelos de lenguaje utilizando hardware infrautilizado en todo el mundo. La arquitectura se apoya en blockchain y un sistema de optimización inteligente, buscando romper el dominio de las grandes corporaciones en el desarrollo de la IA.

3 Claves para entender cómo funciona Psyche

  1. Entrenamiento distribuido eficiente con DisTrO
    Psyche se basa en DisTrO, una técnica que reduce drásticamente la cantidad de datos que se deben compartir entre nodos al entrenar. Inspirado en la compresión JPEG, sólo transmite las partes más relevantes de las actualizaciones del modelo. Incluso puede codificarlas en 1 bit (solo el signo), logrando una compresión de más de 3x sin pérdida de calidad significativa.

  2. Infraestructura descentralizada y resistente

    • La coordinación se gestiona en la blockchain de Solana, lo que garantiza tolerancia a fallos y resistencia a la censura.

    • El sistema usa P2P networking con UDP hole-punching y Iroh para conexiones seguras, resistentes y eficientes.

    • Participantes (clientes) pueden unirse, entrenar y salir sin comprometer el proceso, lo que permite aprovechar GPUs ociosas.

  3. Modelo inaugural: Consilience (40B parámetros)
    Psyche entrenará Consilience, un modelo de 40 mil millones de parámetros con arquitectura Multi-Level Attention (MLA) sobre 20 billones de tokens. Está diseñado para ser accesible (ejecutable en una GPU 3090), potente y representativo del conocimiento humano general, no optimizado solo para benchmarks.

¿Por qué es importante esta iniciativa?

Psyche abre una nueva vía para desarrollar IA de forma colaborativa, accesible y abierta, aprovechando recursos desperdiciados y evitando centralización. Si tiene éxito, marcará el inicio de una nueva era donde cualquiera con una GPU puede contribuir a la creación de modelos avanzados.

II-Medical-8B: Una IA médica de código abierto que desafía a los gigantes

El equipo de Intelligent Internet ha lanzado II-Medical-8B, un modelo compacto pero potente, especializado en razonamiento clínico. A pesar de tener solo 8 mil millones de parámetros, supera a modelos diez veces más grandes en múltiples benchmarks médicos, combinando precisión, eficiencia y accesibilidad.

3 Claves del modelo II-Medical-8B

  1. Rendimiento de élite en dispositivos personales
    II-Medical-8B puede ejecutarse localmente en hardware de consumo como una GPU 3090, eliminando la necesidad de infraestructura en la nube. En pruebas como HealthBench, su rendimiento rivaliza con modelos como GPT-4.5, con costo de inferencia cero.

  2. Entrenamiento riguroso y especializado
    Se entrenó con más de 580.000 muestras usando una combinación de fine-tuning supervisado (SFT) y refuerzo (RL), empleando algoritmos como DAPO y evaluaciones con GPT-4o. Además, el dataset fue cuidadosamente descontaminado para evitar filtraciones de benchmarks.

  3. Dominio sobre benchmarks médicos
    En pruebas como MedQA, PubMedQA y MMLU-Pro, II-Medical-8B supera consistentemente a modelos open-source e incluso a algunos más grandes, como HuatuoGPT-8B o MedReason. Todo ello con un enfoque en explicaciones detalladas, verificables y razonamiento paso a paso.

¿Por qué importa esta noticia?

II-Medical-8B muestra que la excelencia en IA médica no requiere modelos enormes ni acceso restringido. Es una herramienta abierta, eficiente y potente, que permite a investigadores, docentes y profesionales experimentar con razonamiento clínico avanzado sin barreras económicas.

Stability AI lanza Stable Audio Open Small ¡Text-to-Audio en tu bolsillo!

🎵 Modelo open-source de 341M parámetros
📱 Corre directamente en el 99% de los smartphones (sin internet)
⚡ Genera hasta 11 segundos de audio: drum loops, riffs, foley, texturas...
Ideal para músicos y creadores on-the-go.

Robots

Optimus muestra su equilibrio y agilidad

Reflexiones Finales

La hoja de ruta de Sam Altman

  • 2025: la IA comienza a lanzar código de manera efectiva.

  • 2026: coautoriza artículos científicos.

  • 2027: los robots aparecen en el mundo físico y generan un impacto económico real.