- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #88
Boletín Semanal Best-IA #88
Aprende IA, día a día
Tutoriales
MCP Para principiantes + Crea un MCP DESDE CERO
Guía de Construcción de Agentes de OpenAI
OpenAI ha lanzado una guía práctica de 34 páginas para construir agentes de IA. Desde principios centrales y patrones de orquestación hasta mecanismos de selección de herramientas y seguridad, lo cubre todo.
LINK: https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
Guía de Prompting de OpenAI para modelos 4.1
OpenAI también ha liberado una guía de prompting para modelos 4.1. Puedes encontrar ejemplos y mejores prácticas para al construir flujos de trabajo de agente, utilizando un contexto largo, CoT prompting y seguimiento de instrucción compleja.
LINK: https://platform.openai.com/docs/guides/text?api-mode=responses#prompting-gpt-4-1-models
Agente de codificación OpenAI Codex con O4-mini | Claude Code Killer?
Noticias
OpenAI
GPT-4.1, Mini y Nano: los nuevos modelos de OpenAI
OpenAI lanza GPT‑4.1 junto a sus versiones Mini y Nano, una nueva generación de modelos que no sólo destacan en benchmarks, sino que están diseñados para resolver tareas reales: desde programación avanzada hasta análisis legal y visual. Todos están disponibles exclusivamente a través de la API.
Puntos clave:
Contexto extralargo y rendimiento optimizado
Los tres modelos admiten contextos de hasta 1 millón de tokens, con un cutoff de conocimiento en junio de 2024. Nano es el más rápido y económico jamás lanzado por OpenAI, y Mini ofrece rendimiento de modelos grandes con menor latencia y coste.Mejoras en programación
GPT‑4.1 alcanza un 54.6% en el benchmark SWE-bench Verified, superando ampliamente a GPT-4o y GPT-4.5. Además, reduce errores en edición de código al 2% y genera webs preferidas por humanos en el 80% de los casos frente a versiones anteriores.Comprensión de instrucciones complejas
Con mejoras notables en MultiChallenge e IFEval, GPT‑4.1 domina instrucciones encadenadas, negativas o altamente formateadas. Empresas como Hex y Blue J reportan mejores resultados en tareas legales y consultas SQL.Contexto largo y razonamiento avanzado
Destaca en tareas de “needle in a haystack” y razonamiento multihop, superando a GPT-4o en análisis de múltiples documentos. Firmas como Thomson Reuters y Carlyle ya lo aplican con éxito en entornos legales y financieros.Visión mejorada y precios más bajos
Supera a GPT‑4o en varios benchmarks visuales. Además, GPT‑4.1 es un 26% más barato por consulta, con descuentos del 75% por tokens cacheados y sin recargo por contexto largo. El modelo Nano cuesta apenas $0.12 por millón de tokens.
Importancia y repercusiones:
La llegada de GPT‑4.1 y sus variantes marca un salto tangible hacia una IA más útil, eficiente y asequible para empresas y desarrolladores. Su capacidad para manejar instrucciones complejas, contextos largos y múltiples formatos lo convierte en una herramienta versátil para tareas reales. Además, su precio competitivo y mejoras en velocidad y precisión consolidan el modelo como una evolución clara respecto a versiones anteriores, acelerando la adopción masiva de la inteligencia artificial en entornos productivos.
o3 y o4-mini: los modelos más inteligentes de OpenAI hasta la fecha
Esta semana OpenAI ha lanzado o3 y o4-mini, sus nuevos modelos razonadores que representan un salto de generación en capacidades cognitivas, razonamiento visual y uso autónomo de herramientas. Son, sin rodeos, los modelos más inteligentes jamás liberados por OpenAI.
🧠 ¿Qué los hace especiales?
Por primera vez, estos modelos pueden usar todas las herramientas de ChatGPT dentro de su razonamiento: navegar en internet, generar código Python, analizar imágenes, consultar documentos y hasta crear gráficos. Pero no es solo el acceso, sino cómo lo usan: deciden por sí mismos cuándo y para qué usar cada herramienta, en cadenas de razonamiento complejas que ejecutan en segundos.
Esto les permite resolver problemas multidominio, como estimar el consumo energético futuro de California buscando datos reales, programar simulaciones físicas o resolver exámenes de matemáticas universitarias... mejor que muchos humanos.
📊 Resultados que hablan por sí solos
IQ estimado: o3 alcanza 136 en el test de Mensa, el más alto de cualquier IA pública.
Codeforces: o4-mini supera los 2700 puntos ELO en tareas de programación competitiva.
SWE Bench Verified: o3-high alcanza un 81.3% de acierto generando código funcional en entornos reales.
AIME 2025 (competición matemática): o4-mini logra 99.5% de acierto con Python.
Geoguessing: o3 puede identificar ubicaciones del mundo a partir de una simple foto, incluso de comida.
Razonamiento visual: identifican texto borroso, girado, mal iluminado, y resuelven laberintos 200x200 en un intento perfecto.
🔧 Coste, eficiencia y uso real
Aunque o3 es más caro que Gemini 2.5 Pro, es más eficiente en tokens usados por respuesta. o4-mini es ideal para tareas que requieren mucho volumen con razonamiento ágil (data science, SQL, soporte, educación…). Y ambos están disponibles ya en ChatGPT Plus y en la API.
🧪 Entrenamiento y seguridad
Ambos modelos han sido entrenados con refuerzo profundo en el uso estratégico de herramientas. Además, han superado las pruebas más exigentes de OpenAI en seguridad: rechazan instrucciones peligrosas, resisten jailbreaks y han sido sometidos a tests en áreas sensibles como biotecnología y ciberseguridad.
🔮 ¿Y ahora qué?
OpenAI prepara la llegada de o3-pro, con aún más capacidad y razonamiento en paralelo. Todo apunta a que GPT-5 unificará lo mejor de GPT-4.1 y de los modelos o-series.
En resumen, o3 y o4-mini no solo piensan más, piensan mejor. Combinan inteligencia, herramientas y visión en un solo modelo. ¿Lo siguiente? Una IA que no solo responde… actúa.
Codex CLI: la línea de comandos que programa contigo
OpenAI ha lanzado Codex CLI, un nuevo agente ligero de codificación que vive en tu terminal y que convierte la línea de comandos en un entorno de desarrollo inteligente, conversacional y multimodal. Este no es otro "asistente de código" más, sino una especie de copiloto autónomo que puede:
Leer y entender tu código base completo.
Ejecutar comandos en tu sistema de forma segura.
Editar archivos.
Implementar apps desde cero con instrucciones ambiguas.
Y lo más alucinante: razonar visualmente sobre imágenes y generar código a partir de ellas.
⚙️ ¿Cómo funciona?
Codex CLI se ejecuta localmente, sin depender de servidores intermedios. Usa modelos como GPT-4.1, o3 y o4-mini para realizar tareas directamente en tu máquina. Tiene dos modos clave:
Modo normal: tú apruebas los comandos.
Full auto mode: ejecuta todo solo, pero en un entorno sandbox sin red, para que no la lie parda con tu sistema.
Es compatible con cualquier modelo razonador de OpenAI, y la inferencia ocurre en tiempo real, mostrando en pantalla tanto su cadena de razonamiento como los comandos que ejecuta.
✨ Lo más impactante
Puedes pasarle una imagen de una app (como una captura de Photo Booth de macOS) y pedirle que la reimplemente como una web con HTML y JavaScript. Lo hace. Sin código adicional. Solo con la imagen.
Le das un código que no conoces y le dices: "Explícame esto", y te da una visión arquitectónica del proyecto, cómo levantarlo, cómo funciona cada componente.
Puedes hacer cambios concretos (“activa dark mode”) y él edita lo necesario, sin romper nada.
Puedes lanzar varias tareas en paralelo (explicar, editar, crear) y él las gestiona.
🧠 El verdadero poder: razonamiento multimodal
Aquí es donde se nota que está integrado con los nuevos modelos como o3 y o4-mini: Codex no solo escribe código, sino que piensa como un desarrollador. Puede analizar mockups dibujados a mano, detectar filtros visuales de una imagen de app, razonar sobre estructura de carpetas y transformar todo eso en código funcional y organizado.
🧪 Código abierto y listo para usar
Codex CLI es completamente open-source, está ya disponible en GitHub y puedes usarlo con cualquier clave API de OpenAI. También puedes usar Codex para entender su propio código. 🤯
🧠 Gemini 2.5 Flash: Google lanza su modelo más rápido con razonamiento controlable
Google ha presentado en versión preliminar Gemini 2.5 Flash, una evolución del modelo 2.0 Flash que destaca por añadir capacidades de razonamiento sin sacrificar velocidad ni eficiencia. Disponible ya a través de la API de Gemini, Google AI Studio y Vertex AI, este modelo híbrido ofrece control total sobre cuánto “piensa” antes de responder.
Puntos clave:
Razonamiento activable y configurable
Gemini 2.5 Flash permite a los desarrolladores activar o desactivar el “modo pensamiento” y ajustar un presupuesto de razonamiento (hasta 24.576 tokens), logrando un equilibrio personalizado entre calidad, coste y latencia.Mejor relación coste-rendimiento
Según Google, este es su modelo más eficiente hasta la fecha en cuanto a coste por capacidad de razonamiento, y rivaliza en rendimiento con modelos mucho más grandes y caros.Razonamiento adaptable
El modelo determina automáticamente cuánto necesita razonar según la complejidad del prompt, optimizando el uso del presupuesto asignado sin desperdiciarlo si no es necesario.Ideal para tareas complejas y simples
Desde traducir hasta resolver estructuras de ingeniería o evaluar dependencias entre celdas de una hoja de cálculo, Gemini 2.5 Flash adapta su capacidad de análisis al reto.Ya disponible para desarrolladores
Puede utilizarse en proyectos desde hoy mismo mediante la API de Gemini, con ejemplos y documentación en el Gemini Cookbook.
Gemini 2.5 Flash introduce una innovación que cambia las reglas del juego: razonamiento bajo demanda. Esta funcionalidad da a los desarrolladores un control sin precedentes sobre los recursos de IA, permitiendo respuestas más precisas cuando se necesita y más rápidas (y baratas) cuando no. En una era donde cada milisegundo y token cuentan, esta flexibilidad abre nuevas posibilidades para integrar IA en productos reales sin comprometer ni rendimiento ni presupuesto.
LINK: https://developers.googleblog.com/en/start-building-with-gemini-25-flash
🐬 DolphinGemma: la IA de Google que quiere hablar con delfines
Google ha presentado DolphinGemma, un modelo de lenguaje diseñado para descifrar y generar sonidos de delfines. En colaboración con el Wild Dolphin Project (WDP) y Georgia Tech, esta IA busca entender —e incluso responder— a la compleja comunicación de estos cetáceos, un paso audaz hacia la interacción entre especies.
Grok
Grok 3 disponible desde API: Inteligencia de élite a precio mini
La familia Grok 3 ya está disponible a través de la API de xAI, presentando dos modelos que prometen redefinir la relación entre coste y rendimiento en el mundo de la inteligencia artificial. Grok 3 Mini impresiona por su eficiencia, mientras que Grok 3 se posiciona como el mejor modelo sin capacidades de razonamiento profundo para tareas especializadas.
Puntos clave:
Grok 3 Mini rompe el mercado: Supera a modelos insignia en tareas complejas de STEM, matemáticas y programación, siendo hasta 20 veces más económico que sus competidores más potentes.
Coste ultra reducido: Este modelo es 5 veces más barato que cualquier alternativa razonadora en el mercado, ofreciendo alto rendimiento sin vaciar el bolsillo.
Transparencia total: Cada respuesta API incluye la traza completa del razonamiento, sin editar, algo poco común en modelos comerciales.
Grok 3 para tareas críticas: Aunque no está diseñado para razonamiento general, Grok 3 sobresale en tareas empresariales que requieren conocimiento experto en derecho, finanzas o salud.
Integración amplia y sencilla: Ambos modelos están disponibles a través de la API de xAI y son compatibles con herramientas populares como Vercel, Cursor o Windsurf.
Meet the Grok 3 family, now on our API!
Grok 3 Mini outperforms reasoning models at 5x lower cost, redefining cost-efficient intelligence.
Grok 3, the world's strongest non-reasoning model, excels in tasks that need real world knowledge like law, finance, and healthcare.
— xAI (@xai)
7:09 PM • Apr 18, 2025
Grok da un salto adelante: memoria personalizada, ejecución de código y conexión con Google Drive
La plataforma Grok ha anunciado varias novedades importantes que amplían significativamente sus capacidades. Estas funciones, ya disponibles en su web y app oficial, apuntan a convertirla en una herramienta más completa y colaborativa para desarrolladores y usuarios generales.
Puntos clave:
Memoria personalizada
Grok ahora recuerda conversaciones anteriores para ofrecer respuestas más relevantes y personalizadas. El usuario puede ver qué información se guarda y decidir qué olvidar, aunque esta opción aún no está disponible ni en Android ni en la UE/Reino Unido.Nuevo: Grok Studio
Grok Studio permite la creación colaborativa de código, documentos, informes o juegos de navegador. Se abre en una ventana separada para trabajar en tiempo real junto con la IA.Ejecución de código en vivo
La plataforma puede generar y ejecutar código en varios lenguajes (HTML, Python, C++, JavaScript, TypeScript y Bash), permitiendo al usuario previsualizar y probar directamente sus scripts.Integración con Google Drive
Los usuarios pueden adjuntar archivos desde su Drive para que Grok trabaje con documentos, hojas de cálculo y presentaciones de forma directa.
Disponibilidad ampliada
Estas funciones están accesibles tanto para cuentas gratuitas como premium a través de grok.com y las apps oficiales (excepto en territorios con restricciones legales como la UE/Reino Unido).
Este conjunto de actualizaciones es una señal clara de que xAI quiere acelerar el paso y posicionar a Grok como un entorno completo para creación y asistencia con IA.
DeepAgent: el nuevo superagente de IA que lo hace (casi) todo
Abacus.ai presenta DeepAgent, un nuevo superagente de inteligencia artificial diseñado para ejecutar tareas avanzadas de forma autónoma. Gracias a su arquitectura híbrida y su integración con herramientas reales, este agente marca un avance importante en el desarrollo de asistentes IA de propósito general.
Tres puntos clave:
Capacidad multifuncional y adaptable:
DeepAgent puede crear apps y sitios web, redactar informes, generar presentaciones y realizar investigaciones complejas. Utiliza múltiples modelos de lenguaje, ajustados para maximizar precisión y eficiencia en cada tarea.Integración con entornos corporativos:
El agente se conecta automáticamente a Google Workspace, Jira y otros sistemas, lo que le permite operar directamente dentro de flujos de trabajo empresariales, sin necesidad de intervención humana constante.Autonomía real con multitarea y acceso web:
Opera como un asistente multitarea ultraeficiente, capaz de ejecutar varias acciones en paralelo mientras navega en la web para obtener información en tiempo real.
DeepAgent representa un paso crucial hacia agentes autónomos capaces de asumir tareas laborales complejas de principio a fin. Su potencial para transformar procesos empresariales y reducir la carga operativa es significativo. Si logra escalar su rendimiento en la versión profesional, podría redefinir la manera en que usamos la IA en el trabajo diario.
Claude se transforma en asistente de investigación con integración total a Google Workspace
Anthropic ha actualizado a Claude con funciones que lo convierten en un verdadero asistente de investigación autónomo. Con capacidades avanzadas de búsqueda y acceso directo a herramientas de Google Workspace, Claude ahora puede gestionar tareas laborales y personales con mayor eficacia.
Tres puntos clave:
Investigación automatizada con resultados verificables:
La nueva función Research permite a Claude realizar búsquedas encadenadas para explorar distintos ángulos de una pregunta. Elabora respuestas detalladas con citas verificadas, acelerando tareas complejas que antes requerían mucho tiempo.Conexión directa con el entorno laboral del usuario:
La integración con Gmail, Google Calendar y Google Docs facilita el acceso seguro a información clave. Claude puede resumir reuniones, extraer tareas y analizar documentos sin intervención manual.Aplicaciones para usuarios y empresas:
Desde preparar lanzamientos y reuniones hasta organizar actividades familiares, Claude ofrece soluciones versátiles. En el entorno empresarial, destaca su capacidad para indexar documentos internos y encontrar información dispersa manteniendo la privacidad.
Esta evolución convierte a Claude en un asistente IA más autónomo y útil, capaz de anticiparse a las necesidades del usuario y actuar con iniciativa. Marca un paso significativo hacia asistentes inteligentes verdaderamente integrados en la vida diaria y profesional, con un potencial transformador en productividad y toma de decisiones.
Reflexiones Finales
Google Deepmind, David Silver revela: construimos un sistema que usó RL para descubrir sus propios algoritmos de Reinforcement Learning. Este sistema diseñado por IA superó a todos los algoritmos RL creados por humanos desarrollados a lo largo de los años.
Google DeepMind, David Silver reveals:
we built a system that used RL to discover its own RL algorithms.
this AI-designed system outperformed all human-created RL algorithms developed over the years.
— Haider. (@slow_developer)
10:20 PM • Apr 14, 2025