Boletín Semanal Best-IA #100

Aprende IA, día a día.

Tutoriales

Cursos gratuitos de Anthropic para dominar Claude

Anthropic presenta su nueva plataforma educativa gratuita para aprender a usar Claude de forma práctica y profesional. Los cursos cubren desde el uso de la API y Claude Code hasta buenas prácticas con el Message Control Protocol (MCP).

Incluyen lecciones en vídeo, quizzes autoguiados y certificados compartibles. Están basados en casos reales y diseñados con la ayuda de desarrolladores que ya usan Claude en producción.

Noticias

🧠 Grok 4 de xAI: el nuevo contendiente de alto rendimiento en la carrera por la superinteligencia

La empresa de Elon Musk, xAI, acaba de lanzar Grok 4 y su versión más potente, Grok 4 Heavy, acompañados de un nuevo plan de suscripción premium llamado SuperGrok Heavy, a 300 dólares al mes. Este lanzamiento posiciona a xAI como uno de los actores más competitivos en el desarrollo de modelos de IA avanzados.

🔑 Puntos clave

  1. Rendimiento sin precedentes en benchmarks exigentes
    Grok 4 Heavy ha alcanzado el primer lugar en todos estos benchmarks:

    • Humanity’s Last Exam (HLE): 44.4% (vs 26.9% de Gemini 2.5 Pro y 26% de o3)

    • GPQA (preguntas de posgrado): 88.9%

    • AIME 2025 (matemáticas): 100%

    • Harvard-MIT Math: 96.7%

    • ARC-AGI-2: 15.9% (doblando el récord anterior)

    • LiveCodeBench: 79.4%

  2. ARC-AGI-2: entendimiento adaptativo y eficiencia computacional
    Este benchmark evalúa la razonamiento de tipo AGI al pedir a los modelos que infieran reglas abstractas a partir de pocos ejemplos y apliquen esa lógica a nuevas situaciones. Grok 4 rompe la "pared de un solo dígito", mostrando avances en razonamiento adaptable y económico.

  3. Infraestructura colosal para entrenamiento
    Grok 4 fue entrenado en el supercentro Colossus (Memphis), donde xAI duplicó su capacidad a 200.000 GPUs Nvidia H100/H200 en solo 92 días.

  4. Nuevo plan SuperGrok Heavy: alto coste, alto rendimiento
    Con precios de $3/Mn tokens de entrada y $15/Mn tokens de salida (256k de contexto), apunta a casos de uso empresariales o de investigación avanzada. Aun así, el coste por tarea en benchmarks se mantiene razonable.

  5. Acceso abierto vía API de xAI
    Los modelos Grok 4 están disponibles a través de la API de xAI, facilitando su integración en productos o investigación externa.

🎯 Relevancia e implicaciones

Grok 4 y su versión Heavy marcan un nuevo estándar en IA generalista, con mejoras notables en razonamiento complejo, eficiencia y adaptabilidad. Con ello, xAI entra de lleno en la élite del sector.

💻 Devstral Small 1.1 y Devstral Medium: nueva generación de agentes de código de Mistral AI

Mistral AI, en colaboración con All Hands AI, ha lanzado dos nuevas versiones de su familia de modelos para programación autónoma: Devstral Small 1.1 (open-source) y Devstral Medium (API). Ambos modelos están optimizados para tareas agentic (uso autónomo de herramientas y flujos) y ofrecen una excelente relación coste-rendimiento.

Microsoft

Phi-4-mini-flash-reasoning: IA rápida y ligera sin perder potencia

Microsoft lanza Phi-4-mini-flash-reasoning, una versión ultrarrápida de su modelo compacto Phi, diseñada para funcionar en dispositivos con recursos limitados. Mantiene su capacidad de razonamiento con 10× más rendimiento y menos latencia, ideal para asistentes offline o móviles.

Su arquitectura híbrida SambaY combina eficiencia y contexto, permitiendo manejar hasta 64K tokens sin agotar la batería. Además, mejora en benchmarks como Math500 y GPQA, consolidándose como una opción potente y accesible para la IA local.

🧬 BioEmu 1.1: Microsoft acelera la investigación de proteínas con IA generativa

Microsoft Research presenta BioEmu 1.1, una nueva técnica que emula cómo se comportan las proteínas en condiciones reales. Con una precisión sin precedentes, el modelo predice cambios estructurales clave, estabilidad y efectos de mutaciones, todo en horas en lugar de años de simulación.

BioEmu permite estudiar funciones dinámicas esenciales como la unión molecular o el cambio de forma, y podría revolucionar áreas como la biología estructural, el diseño de fármacos y la biotecnología.

Google

🩺 MedGemma: Google lanza sus modelos abiertos más avanzados para IA médica

Google Research presenta MedGemma 27B Multimodal y MedSigLIP, sus nuevos modelos de IA para aplicaciones médicas. Son multimodales, accesibles, adaptables y pensados para mantener la privacidad y eficiencia en el centro.

🔑 Puntos clave del avance

  • MedGemma 27B entiende texto e imágenes médicas, con rendimiento cercano al de modelos líderes pero a una fracción del coste.

  • MedSigLIP es un encoder visual ligero entrenado en diversas imágenes clínicas, ideal para tareas especializadas.

  • Modelos optimizados para ejecutarse en una sola GPU (¡o incluso en dispositivos móviles!).

  • De código abierto: reproducibles, personalizables y listos para aplicaciones reales sin depender de APIs externas.

🎯 Relevancia e implicaciones

Google da un paso firme hacia una IA médica abierta, segura y escalable. MedGemma y MedSigLIP allanan el camino para una nueva generación de herramientas clínicas al alcance de más investigadores y profesionales de la salud.

T5Gemma: Google reinventa la arquitectura encoder-decoder con Gemma 2

Google lanza T5Gemma, una nueva familia de modelos encoder-decoder que combina la eficiencia del enfoque Gemma decoder-only con la flexibilidad del clásico T5. El resultado: mejor rendimiento en tareas como resumen, traducción o QA, sin aumentar latencia.

🔑 Puntos destacados

  • Arquitectura híbrida: encoder-decoder creada a partir de modelos decoder-only.

  • Supera a sus equivalentes en SuperGLUE y GSM8K, con +12 puntos en MMLU tras fine-tuning.

  • Disponible en múltiples tamaños (2B a 9B), ya accesibles en Hugging Face, Kaggle y Vertex AI.

🎯 Relevancia e implicaciones

T5Gemma ofrece una alternativa potente y más adaptable frente al dominio de modelos puramente generativos, recuperando lo mejor del diseño encoder-decoder para tareas aplicadas.

Google expande Gemini con nuevas funciones visuales, móviles y de búsqueda

Google sigue integrando Gemini en su ecosistema con funciones que amplían su utilidad y alcance:

🧠 Comet: el nuevo navegador de Perplexity que quiere reemplazar a tu mente extendida

Perplexity ha presentado Comet, un navegador diseñado como asistente inteligente para todo lo que haces online, desde tareas laborales hasta actividades personales.

🔑 Puntos clave

  • Un navegador que piensa contigo
    Comet no solo organiza pestañas: convierte sesiones enteras de navegación en interacciones conversacionales. Puedes pedirle que agende reuniones, compre productos, resuma tu día o te explique cualquier texto con un solo clic.

  • De buscar a pensar
    Mientras la web se ha convertido en nuestra “mente extendida”, seguimos atrapados en interfaces rígidas. Comet quiere reemplazar los clics y pestañas por un flujo natural de pensamiento, permitiéndote explorar ideas sin perder contexto.

  • Diseñado para la curiosidad humana
    Puedes hacer preguntas generales o altamente especializadas desde cualquier página. Comet responde con precisión y contexto, reconociendo que el conocimiento no siempre sigue rutas predefinidas.

  • Integración profunda y fluida
    Olvídate de cambiar entre apps, pestañas y herramientas. Comet centraliza todas tus acciones digitales en un único espacio inteligente y reactivo.

  • Disponible desde hoy (con condiciones)
    Comet ya está disponible para los suscriptores de Perplexity Max. Para el resto, el acceso será mediante invitación, priorizando a quienes estén en lista de espera.

🎯 Implicaciones para el desarrollo de la IA
Comet ejemplifica cómo los navegadores pueden evolucionar desde simples portales web hacia verdaderos asistentes cognitivos, integrando inteligencia artificial para potenciar la curiosidad y la productividad humanas en tiempo real.

🤖 Kimi K2: Inteligencia Agéntica Abierta y a Tu Alcance

Moonshot AI ha presentado Kimi K2, un modelo de Mixture-of-Experts con 1 billón de parámetros totales y 32B activados, que no solo iguala el rendimiento de los modelos punteros en tareas de conocimiento, matemáticas y programación, sino que además actúa como un agente autónomo: usa herramientas, navega, edita archivos y ejecuta comandos. Ahora, sus versiones Base e Instruct están disponibles como código abierto.

🔑 Puntos clave del modelo

  1. Diseñado para actuar, no solo responder

    • Kimi K2 ha sido entrenado para ejecutar tareas completas con herramientas reales, sin necesidad de flujos de trabajo manuales.

    • Ejemplos: análisis de salarios con 16 llamadas IPython, generación de webs interactivas con múltiples pasos o planificación integral de un viaje.

  2. Arquitectura optimizada + entrenamiento estable

    • Usa la arquitectura DeepSeek-V3-like y el nuevo optimizador MuonClip, que estabiliza el entrenamiento evitando explosiones de atención.

    • Fue preentrenado con 15.5T tokens sin picos de inestabilidad.

  3. Capacidades agenticas avanzadas

    • Entrenado con simulaciones a gran escala de uso de herramientas (inspiradas en ACEBench).

    • Utiliza Reinforcement Learning general con un sistema de autocrítica que permite aprender incluso en tareas sin recompensas verificables.

  4. Rendimiento sobresaliente en benchmarks

    • Supera o iguala a modelos punteros (open y propietarios) en: AIME 2025, GPQA-Diamond, LiveCodeBench v6, SWE-Bench Multilingual, OJBench y más.

  5. Código abierto y adaptable

    • Disponible en versiones Base (para entrenamiento personalizado) e Instruct (lista para chat o tareas de agente).

    • Se puede ejecutar localmente con motores como vLLM, TensorRT-LLM o SGLang, y ya está integrado en la plataforma kimi.com.

🎯 Relevancia e implicaciones

Kimi K2 marca un salto en IA abierta: combina razonamiento, autonomía y eficiencia, con capacidades de agente que antes eran exclusivas de entornos cerrados. Abre la puerta a asistentes verdaderamente útiles en tareas reales, sin depender de APIs o infraestructuras propietarias.

Robots

Reachy Mini: el robot de sobremesa open-source que acerca la IA a todos

Hugging Face y Pollen Robotics presentan Reachy Mini, un robot expresivo, modular y asequible que invita a desarrolladores, educadores y entusiastas a experimentar con inteligencia artificial desde el escritorio.

🔑 Puntos clave

  • Tamaño y precio accesible: 28 cm de alto, 1,5 kg y un coste inicial de 299 USD; versión autónoma con Raspberry Pi 5, Wi-Fi y batería por 449 USD.

  • Dos configuraciones en kit: Lite (alimentación cableada) y completa (inalámbrica), ambas con cámara gran angular, altavoz y hasta cuatro micrófonos para interacción audio-visual.

  • Programable y simulable: SDK Python open-source (pronto JavaScript y Scratch) y entorno de simulación para probar comportamientos antes de recibir el robot.

  • Comunidad Hugging Face: más de 15 comportamientos plug-and-play disponibles desde el lanzamiento y repositorio compartido para crear, subir y descargar nuevas habilidades.

🎯 Relevancia
Reachy Mini evidencia la convergencia entre IA generativa y robótica accesible: su precio democratiza la experimentación, mientras la integración con Hugging Face acelera el ciclo comunidad-modelo-robot, anticipando una ola de aplicaciones educativas y domésticas.

MagicBot Z1: el nuevo humanoide ágil de China

La empresa MagicLab lanza el MagicBot Z1, un robot humanoide de 1,40 metros equipado con manos articuladas (11 DoF), percepción 360° y una autonomía de unas 2 horas.

Puede caminar, correr y adaptarse a distintos terrenos, con capacidad para recuperarse rápidamente de caídas. Un paso firme hacia robots más versátiles y preparados para el mundo real.

Reflexiones Finales

Musk y Amodei coinciden: la superinteligencia está a la vuelta de la esquina

Elon Musk afirma que en menos de dos años la IA será más inteligente que cualquier ser humano, y en menos de cinco, superará a toda la humanidad combinada. Cree que los modelos de IA pronto dirigirán empresas enteras por sí mismos.

Lo interesante: Dario Amodei (Anthropic) hizo recientemente la misma predicción, apuntando a 2027 como el año en que veremos IA superinteligente gestionando conglomerados empresariales.