Boletín Semanal Best-IA #91

Aprende IA, día a día

Tutoriales

Crea APPS a partir de VIDEOS con Gemini 2.5 Pro (I/O Edition)

Automatiza flujos de trabajo complejos con OpenAI o3

Noticias

Google lanza Gemini 2.5 Pro I/O Edition, “el nuevo rey de la programación con IA”

  • Google ha presentado Gemini 2.5 Pro I/O Edition, una actualización que lleva la programación asistida por IA a otro nivel, superando a todos los modelos anteriores en los rankings más exigentes.

  • Puntos clave:

    • Líder absoluto en programación web
      La nueva versión ha alcanzado el primer puesto en el ranking de WebDev Arena, desbancando con claridad a Claude 3.7 Sonnet, gracias a mejoras notables en desarrollo frontend, transformación y edición de código, y flujos de trabajo agentivos.

    • Nº 1 en todos los benchmarks de lenguaje
      Gemini 2.5 Pro I/O Edition también domina el LM Arena leaderboard, donde supera a modelos como OpenAI o3, consolidándose como la IA más potente del momento para tareas de lenguaje y programación.

    • Entiende vídeo y lo transforma en apps
      A sus mejoras en desarrollo se suman potentes capacidades de comprensión de vídeo, que permiten generar aplicaciones educativas interactivas a partir de contenido audiovisual.

      1. Rendimiento superior en benchmarks de vídeo
        Gemini 2.5 Pro supera a modelos como GPT-4.1 en tareas complejas de comprensión de vídeo, como VideoQA, YouCook2 y QVHighlights, incluso frente a modelos especializados y ajustados a mano.

      2. Multimodalidad real: vídeo, audio y código
        Es el primer modelo de Google que combina vídeo, audio, texto y código de forma nativa, permitiendo transformaciones como “vídeo a app educativa” o la generación automática de animaciones en p5.js a partir de vídeos.

      3. Interacción temporal avanzada
        Gemini 2.5 Pro destaca en el reconocimiento y descripción de momentos clave, e incluso en razonamiento temporal como el conteo preciso de eventos dentro de un vídeo, demostrando comprensión contextual en secuencias largas.

      4. Optimización para costes y escalabilidad
        La versión Gemini 2.5 Flash ofrece una alternativa más ligera para tareas similares, mientras que la opción de resolución baja permite procesar hasta 6 horas de vídeo con una sola llamada a la API, manteniendo una alta precisión.

      5. Integración en el ecosistema Google
        Los modelos están disponibles en Google AI Studio, Vertex AI y el Gemini API, con soporte directo para vídeos de YouTube, facilitando la creación de nuevas herramientas interactivas y educativas basadas en vídeo.

  • Con este lanzamiento, Google se posiciona al frente de la carrera por el mejor modelo de IA generalista. Su capacidad para escribir código, entender vídeo y crear experiencias interactivas lo convierte en una herramienta clave para desarrolladores, educadores y creadores de productos digitales.

OpenAI

Ahora puedes conectar los repositorios de GitHub a la investigación profunda en ChatGPT 

  • Haz una pregunta y el agente de investigación profunda leerá y buscará el código fuente del repositorio y los PRS, devolviendo un informe detallado con citas.

    • Presiona “investigación profunda” → Github para comenzar.

Las nuevas mejoras de memoria ahora se implementan por completo a usuarios de PLUS y Pro en el Espacio Económico Europeo, Reino Unido, Suiza, Noruega, Islandia y Liechtenstein

La directora ejecutiva de Instacart, Fidji Simo, será la CEO de Aplicaciones de OpenAI

  • OpenAI ha anunciado la incorporación de Fidji Simo como CEO de Aplicaciones para fortalecer su crecimiento y expansión.

  • Sam Altman, CEO de la empresa, continuará liderando las áreas de Investigación, Computación y Sistemas de Seguridad, mientras Fidji se enfocará en escalar las funciones comerciales y operativas.

  • Fidji, que ha sido miembro del consejo de OpenAI y actualmente trabaja en Instacart, aporta experiencia en liderazgo, producto y operaciones.

  • Esta incorporación refuerza la visión de OpenAI de seguir avanzando en la creación de una inteligencia artificial superinteligente que beneficie a toda la humanidad.

  • LINK: https://openai.com/index/leadership-expansion-with-fidji-simo/

La fundación sin ánimo de lucro seguirá al mando de OpenAI

  • OpenAI ha anunciado que su estructura organizativa se mantendrá bajo el control de su fundación sin ánimo de lucro. Aunque su filial con fines de lucro se convertirá en una Corporación de Beneficio Público (PBC), la misión de desarrollar inteligencia artificial en beneficio de la humanidad permanece inalterada. La fundación seguirá siendo propietaria mayoritaria y supervisará la nueva PBC, asegurando que los intereses comerciales no desvíen el propósito original de la organización.

  • LINK: https://openai.com/index/evolving-our-structure/

OpenAI acordó comprar Windsurf por aproximadamente 3 mil millones de dólares, según informa Bloomberg News

Mistral lanza Mistral Medium 3 y Le Chat Enterprise: nueva IA más potente, más barata y 100 % adaptable para empresas

  • Mistral AI ha presentado dos grandes novedades: Mistral Medium 3, un modelo que combina rendimiento de vanguardia con despliegue eficiente, y Le Chat Enterprise, una plataforma empresarial completa basada en ese modelo. Ambos productos están diseñados para integrar IA avanzada en organizaciones sin complicaciones ni sobrecostes.

Mistral Medium 3: IA de alto nivel a una fracción del coste

  • Rendimiento top, precio mínimo
    Rinde igual o mejor que Claude 3.7 Sonnet en más del 90 % de los benchmarks, a un coste 8 veces menor ($0.4 input / $2 output por millón de tokens).

  • Despliegue fácil y flexible
    Compatible con cualquier nube o entorno on-premise desde solo 4 GPUs, ideal para empresas que buscan control y escalabilidad.

  • Dominio en programación y tareas técnicas
    Especialmente fuerte en coding y STEM, superando incluso a modelos más grandes como Llama 4 Maverick y Cohere Command R+.

  • Pensado para integrarse en sistemas empresariales
    Admite entrenamiento continuo, afinado personalizado y conexión con bases de conocimiento para automatizar procesos y análisis complejos.

Le Chat Enterprise: una plataforma AI todo-en-uno para empresas

  • Plataforma unificada para el trabajo organizacional
    Permite crear agentes personalizados, conectar herramientas como Google Drive o SharePoint y organizar documentos para respuestas contextuales.

  • Seguridad y privacidad como prioridad
    Despliegue en nubes públicas, privadas o self-hosted con controles de acceso, logs de auditoría y sin dependencia de proveedores.

  • Interfaz adaptable sin código
    Equipos técnicos y no técnicos pueden crear asistentes específicos para tareas repetitivas o complejas, todo sin escribir una línea de código.

  • Personalización profunda y mejora continua
    Desde memoria personalizada hasta feedback loops para adaptar el comportamiento de los modelos según las necesidades de la empresa.

  • Mistral redefine la IA empresarial: modelos potentes, económicos y personalizables que hacen viable la adopción masiva sin sacrificar privacidad ni rendimiento.

Claude se conecta a internet: Anthropic lanza búsqueda web en su API

  • Anthropic ha anunciado la integración de búsqueda web en su API, permitiendo que los modelos Claude accedan a información en tiempo real directamente desde internet. Esta mejora expande drásticamente su utilidad para aplicaciones que requieren datos actuales y precisos.

  • Puntos clave:

    1. Acceso a datos actualizados desde la API
      Claude puede ahora realizar búsquedas en la web para complementar su conocimiento entrenado con información reciente y especializada. Esta capacidad está disponible en los modelos Claude 3.7 Sonnet, Claude 3.5 Sonnet mejorado y Claude 3.5 Haiku.

    2. Funcionamiento autónomo como agente de búsqueda
      El sistema puede encadenar múltiples búsquedas de forma progresiva, afinando consultas y refinando resultados para realizar investigaciones ligeras. Todo esto controlable mediante el parámetro max_uses.

    3. Casos de uso en sectores clave
      Claude con búsqueda web se puede aplicar a servicios financieros (análisis de mercados en tiempo real), legales (consultas sobre jurisprudencia reciente), desarrollo (documentación técnica), o productividad (informes y competencia).

    4. Transparencia y control organizativo
      Cada respuesta basada en la web incluye citas. Además, se pueden definir listas de dominios permitidos o bloqueados, y gestionar el acceso desde niveles administrativos.

    5. Integración con Claude Code y plataformas como Poe
      La búsqueda web mejora también las capacidades de programación en Claude Code y ya se está utilizando en plataformas como Poe y Adaptive.ai.

  • LINK: https://www.anthropic.com/news/web-search-api

Meta lanza Locate 3D y PLM: dos nuevos modelos para visión artificial avanzada y entornos 3D

  • Meta refuerza su apuesta por la inteligencia artificial con el lanzamiento de dos modelos de código abierto centrados en la visión computacional: Meta Locate 3D, para localización precisa en entornos tridimensionales, y Perception Language Model (PLM), un modelo vision-language que aborda tareas visuales complejas con reproducibilidad total.

Meta Locate 3D: comprensión espacial para robots más inteligentes

  • Localización precisa en 3D
    El modelo permite identificar y ubicar objetos con gran exactitud en entornos tridimensionales, mejorando la percepción espacial de agentes autónomos.

  • Interacción más natural con humanos
    Está pensado para facilitar la interacción entre robots y personas en entornos reales, al comprender mejor el contexto físico.

  • Recursos disponibles
    Meta ha liberado el modelo, el dataset, un paper explicativo y una demo interactiva para desarrolladores e investigadores.

Meta PLM: visión y lenguaje combinados para tareas visuales desafiantes

  • Modelo vision-language abierto y reproducible
    PLM aborda tareas visuales complejas combinando texto e imagen, y destaca por su enfoque accesible para la comunidad investigadora.

  • Impulso al ecosistema open source
    Meta proporciona el código, el dataset y el paper, promoviendo una IA más colaborativa y transparente.

  • Aplicaciones en visión por computador
    PLM puede utilizarse como base para construir sistemas más sofisticados en áreas como análisis de imágenes, navegación o robótica.

Microsoft apuesta por la colaboración entre agentes con el protocolo A2A y mejora Copilot con nuevas funciones interactivas

  • Microsoft refuerza su visión de una IA abierta y colaborativa con dos anuncios clave: la introducción del protocolo Agent2Agent (A2A) para agentes interconectados en Azure y Copilot Studio, y la nueva función Pages en Microsoft Copilot, que permite interactuar con IA de forma más fluida, al estilo ChatGPT Canvas.

Agent2Agent (A2A): el lenguaje común para agentes inteligentes

  • Interoperabilidad real entre agentes y plataformas
    A2A permite que agentes de diferentes nubes, proveedores o entornos colaboren, compartan objetivos y ejecuten acciones de forma segura y auditable.

  • Despliegue empresarial inmediato
    Azure AI Foundry y Copilot Studio integrarán A2A, facilitando flujos de trabajo multi-agente sin renunciar a la gobernanza ni a la observabilidad.

  • Basado en estándares abiertos
    Microsoft contribuye activamente al desarrollo de A2A en GitHub y lo integra con herramientas populares como Semantic Kernel y LangChain.

  • Seguridad y control total
    El protocolo utiliza Microsoft Entra, mTLS, filtros de contenido y trazabilidad completa, promoviendo ecosistemas de agentes confiables y auditables.

  • LINK: https://www.microsoft.com/en-us/microsoft-cloud/blog/2025/05/07/empowering-multi-agent-apps-with-the-open-agent2agent-a2a-protocol/

Copilot Pages: colabora con la IA como si fuera un editor inteligente

  1. Interacción más natural y editable
    La nueva función “Pages” permite que el usuario revise, expanda o ajuste las respuestas de Copilot en un entorno de edición visual, similar a ChatGPT Canvas.

  2. Enfoque en productividad, no en programación
    Aunque carece de funciones de codificación avanzadas, Pages está orientado a mejorar la redacción, el análisis de ideas y la colaboración en texto dentro del flujo de trabajo.

  3. IA como interfaz de trabajo
    Microsoft refuerza la idea de Copilot como el nuevo “UI para la IA”, integrándose de forma fluida en tareas profesionales y trabajo diario.

Robots

VideoMimic

  1. Los investigadores de UC Berkeley presentan VideoMimic, un método que conecta datos del mundo real con simulaciones y de regreso a aplicaciones en el mundo físico.

  2. El sistema usa videos grabados con dispositivos móviles para aprender.

  3. Desde estos videos, extrae información relevante y crea modelos digitales 3D tanto de las personas que aparecen como del entorno donde están.

  4. Con estos modelos, genera políticas de control para robots humanoides, ayudándolos a aprender a realizar tareas específicas.

  5. Esto permite que los robots adquieran habilidades complejas, como subir escaleras, imitando movimientos observados en videos del mundo real.

Reflexiones Finales

Cómo la inteligencia artificial transformará nuestras vidas | Carlos Moreno Morera