Boletín Semanal Best-IA #112

Aprende IA, día a día

Tutoriales

La NUEVA función de NotebookLM + Gemini 2.5 🤯 | 5 FLUJOS REALES desde 1 solo informe

¡AUTOMATÍZALO TODO! Nuevo OpenAI AgentBuilder vs Google Opal vs N8N

Noticias

OpenAI DevDay 2025: El futuro llega integrado

OpenAI presentó en su DevDay un conjunto de novedades que transforman ChatGPT en una verdadera plataforma de apps, agentes y contenido multimodal. A continuación, el resumen con lo esencial.

🔑 Lo más destacado

1. ChatGPT se convierte en una “superapp
Ahora puede alojar aplicaciones interactivas de terceros directamente dentro del chat.
Entre los primeros socios: Booking, Canva, Coursera, Expedia, Figma, Spotify y Zillow.
Los desarrolladores ya pueden crear sus propias apps con el Apps SDK, basado en el Model Context Protocol (MCP). Pronto habrá un directorio oficial y monetización.

2. AgentKit: la nueva fábrica de agentes
OpenAI lanzó AgentKit, un stack para crear agentes de producción.
Incluye:

  • Agent Builder (canvas visual para diseñar flujos, añadir filtros y versionar).

  • ChatKit (chat embebible en productos).

  • Connector Registry (beta para conectar herramientas y datos).
    Además, Evals incorpora datasets, trace grading y optimización automática de prompts.

3. Codex llega a todos
El modelo de programación Codex sale de beta y ya es de disponibilidad general.
Trae SDK, integración con Slack y nuevas funciones para control, análisis y despliegue interno.

4. Modelos y precios actualizados

  • GPT-5 Pro disponible vía API ($15 / 1M input tokens, $120 / 1M output).

  • GPT-Realtime Mini, nuevo modelo de voz low-latency, 70 % más barato que el anterior.

  • Sora 2 y Sora 2 Pro disponibles por API para crear o editar vídeos con audio sincronizado, control de duración y resolución.

🎯 OpenAI pasa de ofrecer un modelo de lenguaje a construir una infraestructura completa para apps, agentes y contenidos generativos, abriendo una nueva etapa: ChatGPT como sistema operativo de la inteligencia artificial.

Gemini 2.5 Computer Use: el modelo que usa el navegador como un humano

Google DeepMind ha lanzado Gemini 2.5 Computer Use, un modelo especializado derivado de Gemini 2.5 Pro que permite a los agentes de IA interactuar directamente con interfaces gráficas: hacer clic, escribir, desplazarse o rellenar formularios como lo haría un humano.

🔑 Claves del avance

  1. Interacción real con interfaces
    El modelo va más allá de los clásicos accesos vía API: ahora puede controlar navegadores y aplicaciones web en tiempo real. Interpreta capturas de pantalla, ejecuta acciones (clics, formularios, menús) y actualiza su contexto de manera iterativa hasta completar una tarea.

  2. Arquitectura en bucle con control visual
    El nuevo tool computer_use en la API de Gemini procesa tres elementos: solicitud del usuario, imagen del entorno y registro de acciones previas. Con ellos, genera llamadas de función que representan interacciones en pantalla, validando cada paso antes de continuar.

  3. Seguridad integrada y control para desarrolladores
    Gemini 2.5 Computer Use incorpora salvaguardas frente a riesgos como inyecciones de prompts o usos indebidos. Los desarrolladores pueden definir reglas que requieran confirmación humana o bloqueen acciones sensibles, apoyándose en un servicio de evaluación de seguridad por paso (per-step safety service).

  4. Rendimiento líder en control web y móvil
    El modelo supera a otras soluciones en benchmarks de Browserbase y Online-Mind2Web, ofreciendo menor latencia y mayor precisión en tareas de automatización de interfaz, aunque todavía no está optimizado para control de sistemas operativos de escritorio.

  5. Casos de uso iniciales
    Equipos internos de Google ya lo usan para pruebas automatizadas de UI (Project Mariner, Firebase Testing Agent) y funciones de IA en el modo de búsqueda. Los testers externos lo aplican en asistentes personales, automatización de flujos y testing web con resultados positivos.

🎯 Relevancia e implicaciones
Gemini 2.5 Computer Use representa el paso decisivo hacia agentes de IA autónomos capaces de operar software visualmente, lo que acerca la automatización completa de tareas digitales y el desarrollo de verdaderos asistentes universales.

Gemini Enterprise: la nueva puerta de entrada a la IA en el trabajo

Presentación del tema
Google Cloud presenta Gemini Enterprise, una plataforma integral que unifica modelos, agentes y datos empresariales para convertir la IA en el motor central de las organizaciones. Su objetivo: pasar de tareas aisladas a flujos de trabajo totalmente automatizados y conectados.

🔑 Claves del anuncio

  1. Una plataforma completa y unificada
    Gemini Enterprise integra todos los componentes de IA en una sola interfaz: modelos Gemini, agentes preconstruidos y personalizados, conexión segura a datos empresariales (Google Workspace, Microsoft 365, Salesforce, SAP), y un marco central de gobernanza para administrar todo el ecosistema desde un único punto.

  2. Agentes inteligentes y contextuales
    Los agentes pueden automatizar flujos complejos en marketing, finanzas, atención al cliente o desarrollo. Conectados al contexto y datos reales de la empresa, ofrecen respuestas precisas y permiten crear procesos totalmente autónomos. Además, el nuevo Data Science Agent simplifica la preparación y exploración de datos sin necesidad de programación.

  3. Transformación del trabajo diario
    Gemini Enterprise mejora la productividad mediante funciones multimodales integradas en Google Workspace:

    • Google Vids convierte presentaciones en vídeos con guion y narración generados por IA.

    • Google Meet ofrece traducción de voz en tiempo real que preserva tono y expresividad.

    • Los equipos pueden construir y gobernar todos sus agentes en un entorno centralizado y seguro.

  4. Impulso a la economía de agentes
    Google promueve un ecosistema abierto con estándares como A2A (Agent2Agent Protocol), MCP y AP2 (Agent Payments Protocol), que permiten que los agentes se comuniquen y realicen transacciones seguras. Desarrolladores y partners pueden crear, monetizar y distribuir agentes validados desde un nuevo AI Agent Finder.

  5. Alianza global y formación masiva
    Con más de 100.000 socios (entre ellos Accenture, PwC, SAP y Box), Google impulsa la adopción de Gemini Enterprise en múltiples industrias. Además, lanza Google Skills y el programa GEAR para formar a un millón de desarrolladores en la creación y despliegue de agentes IA.

🎯 Gemini Enterprise redefine el concepto de IA empresarial: pasa de ser una herramienta puntual a una infraestructura central que automatiza, aprende y colabora. Google apuesta así por un nuevo paradigma de trabajo impulsado por agentes inteligentes interconectados.

Genkit Extension para Gemini CLI: desarrollo de IA más inteligente desde la terminal

Presentación del tema
Google lanza la Genkit Extension para Gemini CLI, una integración oficial que conecta la línea de comandos de Gemini con el entorno de desarrollo Genkit, permitiendo construir, depurar y optimizar aplicaciones de inteligencia artificial directamente desde el terminal.

🔑 Claves del anuncio

  1. Integración profunda entre Gemini CLI y Genkit
    La extensión añade conocimiento nativo del ecosistema Genkit al CLI de Gemini mediante el Model Context Protocol (MCP) y archivos de contexto especializados. Esto permite que el asistente entienda la arquitectura y los flujos de trabajo de Genkit de forma contextual.

  2. Herramientas MCP específicas para Genkit
    Incluye utilidades como:

    • get_usage_guide: guía de uso y buenas prácticas.

    • lookup_genkit_docs: acceso a documentación actualizada.

    • list_flows y run_flow: exploración y ejecución de flujos.

    • get_trace: análisis detallado de trazas con OpenTelemetry.

  3. Asistencia inteligente y contextual
    Gemini CLI puede ahora sugerir código adaptado al SDK de Genkit, depurar flujos con trazas paso a paso y validar que las implementaciones sigan los patrones recomendados por la plataforma.

  4. Integración fluida en el flujo de desarrollo
    La extensión detecta la estructura del proyecto, respeta los proveedores configurados y se sincroniza con la interfaz de Genkit Developer UI, haciendo que la asistencia IA se integre sin fricciones con las herramientas existentes.

  5. Un nuevo estándar para el desarrollo asistido por IA
    Esta extensión marca un avance hacia entornos de desarrollo contextualmente conscientes, donde el asistente no solo genera código, sino que entiende la arquitectura, diagnostica errores y sugiere mejoras específicas del framework.

🎯 La Genkit Extension transforma Gemini CLI en un copiloto experto en desarrollo de IA, acercando la visión de herramientas capaces de entender el contexto completo del proyecto y colaborar activamente en la creación de aplicaciones productivas y escalables.

Claude Code estrena sistema de plugins: más flexibilidad y colaboración para desarrolladores

Anthropic ha lanzado el sistema de plugins para Claude Code, una nueva función en beta pública que permite crear, compartir y gestionar colecciones personalizadas de comandos, agentes y servidores MCP directamente desde el terminal o VS Code.

🔑 Claves del anuncio

  1. Unificación de comandos, agentes y flujos personalizados
    Los nuevos plugins agrupan slash commands, subagentes, servidores MCP y hooks en un solo paquete modular. Pueden activarse o desactivarse fácilmente, lo que simplifica la personalización sin sobrecargar el entorno de desarrollo.

  2. Desarrollo colaborativo y distribuible
    Los usuarios pueden crear y compartir plugins que integren flujos de trabajo específicos, normas de codificación o cadenas de herramientas internas. Esta arquitectura favorece la estandarización y la reutilización dentro de equipos o comunidades técnicas.

  3. Instalación directa y sin fricciones
    Los plugins pueden instalarse mediante el comando /plugin tanto en el terminal como en VS Code. Este enfoque elimina pasos manuales y centraliza la gestión de extensiones, diferenciando a Claude Code de otros asistentes de programación.

  4. Ecosistema en expansión
    La comunidad de desarrolladores ya está publicando colecciones de plugins que cubren tareas como pruebas automáticas, refactorización o análisis de seguridad, acelerando el crecimiento del ecosistema.

🎯 El nuevo sistema de plugins de Claude Code posiciona a Anthropic como competidor directo en la carrera por los asistentes de desarrollo más flexibles, potenciando la automatización y la colaboración entre humanos y agentes dentro de entornos de código reales.

NeuroChat: la IA que aprende contigo, no sobre ti

El MIT Media Lab ha presentado NeuroChat, el primer chatbot neuroadaptativo del mundo capaz de ajustar sus respuestas en función de tu nivel de atención, curiosidad y concentración medidos en tiempo real mediante señales cerebrales.

🔑 Claves del avance

  1. Lectura cerebral no invasiva
    NeuroChat utiliza sensores EEG ligeros para registrar la actividad cerebral asociada al grado de compromiso cognitivo del usuario, sin acceder a pensamientos, recuerdos ni emociones.

  2. Ajuste dinámico del aprendizaje
    El modelo genera un bucle de retroalimentación en vivo entre mente y máquina: adapta su tono, profundidad o ritmo según la atención detectada, personalizando la experiencia educativa al instante.

  3. Privacidad y procesamiento local
    Todos los datos neuronales se procesan directamente en el navegador y pueden integrarse con modelos de IA locales, garantizando la protección total de la información cerebral.

  4. Resultados de laboratorio
    En un estudio piloto con 24 participantes, NeuroChat logró mayor compromiso cerebral (EEG) y fue percibido como más humano y fluido que un chatbot convencional, fomentando además la curiosidad sostenida.

  5. De la distracción al enfoque asistido
    El proyecto busca revertir los efectos observados en investigaciones previas que muestran cómo los LLM pueden reducir la conectividad y la implicación mental en tareas complejas.

🎯 NeuroChat inaugura una nueva era de IA neuroadaptativa, donde los sistemas no sustituyen el pensamiento humano, sino que se sincronizan con él, abriendo paso a interfaces que amplían la atención, la creatividad y el aprendizaje cognitivo.

Robots

Figure 03: El humanoide que quiere conquistar el hogar y la industria

Figure Robotics ha presentado Figure 03, su tercer robot humanoide, diseñado para integrar inteligencia, seguridad doméstica y producción en masa. Este modelo redefine el estándar de los robots generalistas al combinar visión, tacto y autonomía con un diseño optimizado para convivir con humanos.

🔑 Claves del avance

  1. Diseñado para Helix, la IA de acción y visión-lenguaje
    Figure 03 incorpora un nuevo sistema sensorial y manos con cámaras integradas que permiten a Helix percibir y actuar en entornos complejos. Su sistema de visión duplica la tasa de fotogramas, reduce la latencia y amplía el campo de visión, facilitando movimientos precisos y manipulación avanzada.

  2. Manos con sentido del tacto ultrafino
    Cada dedo posee sensores capaces de detectar apenas 3 gramos de presión, permitiendo distinguir entre un agarre firme y uno inestable. Esto dota al robot de una destreza comparable a la humana para manipular objetos frágiles o de formas irregulares.

  3. Optimizado para el hogar
    Figure 03 incluye espuma protectora, textiles suaves y una batería certificada bajo estándares de seguridad internacionales. Puede cargarse por inducción (2 kW) y comunicarse por voz gracias a un sistema de audio mejorado. Además, su ropa es lavable y personalizable.

  4. Listo para producción a gran escala
    La compañía ha creado su propia cadena de suministro y la planta BotQ, capaz de fabricar hasta 12.000 unidades anuales. El nuevo diseño reduce piezas y costes, permitiendo producir robots a un precio mucho más bajo y con trazabilidad total.

  5. Aplicaciones comerciales y domésticas
    Su arquitectura permite operar sin cables, con recarga automática y comunicación de datos de alta velocidad (10 Gbps). Empresas podrán personalizar uniformes y pantallas laterales, integrándolo fácilmente en entornos laborales o de servicio.

🎯 Figure 03 marca un salto hacia los robots humanoides funcionales y asequibles, fusionando IA avanzada con diseño industrial. Es un paso decisivo hacia la automatización doméstica y laboral a gran escala, con impacto directo en cómo convivimos y trabajamos con máquinas.

DEEP Robotics DR02: el robot humanoide preparado para todo tipo de condiciones climáticas

Reflexiones Finales

Los Secretos de la Inteligencia Artificial | Senén Barro