Boletín Semanal Best-IA #95

Aprende IA, día a día.

Noticias

OpenAI

ChatGPT se conecta con tus herramientas de trabajo (y con tus reuniones también)

  • OpenAI ha anunciado “Connectors”, una expansión de ChatGPT enfocada en mejorar el acceso a fuentes internas de información en tiempo real, respetando siempre los permisos del usuario.

  • 🔑 Puntos Clave

    1. Nuevos conectores disponibles
      Los usuarios de ChatGPT Plus y Pro (excepto en EEA, CH y UK), así como los de planes Team, Enterprise y Edu, ya pueden conectar sus cuentas de Outlook, Teams, Google Drive, Gmail, Linear, y más.

    2. Más integraciones para empresas
      Los usuarios empresariales y educativos ahora también tienen acceso a conectores con SharePoint, Dropbox y Box, ampliando el acceso a fuentes corporativas.

    3. Conectores personalizados con MCP
      Los administradores de Workspaces pueden construir conectores a medida usando MCPs, que permiten integrar sistemas propietarios para que los modelos de IA trabajen con conocimiento interno y resultados web al mismo tiempo.

    4. Modo de grabación con IA integrada
      ChatGPT ahora puede capturar reuniones y notas de voz en macOS (inicialmente en Team), transcribirlas y convertirlas en resúmenes, tareas, planes o incluso código. Este modo llegará pronto a Plus, Pro, Enterprise y Edu.

  • 🎯 Relevancia e implicaciones
    Estas funciones acercan a ChatGPT a ser un verdadero asistente de productividad empresarial, capaz de trabajar con información privada y contexto actualizado, potenciando tareas complejas con menos fricción.

Codex con acceso a Internet: el nuevo superpoder para desarrolladores

  • OpenAI ha lanzado una serie de mejoras clave para Codex, su asistente de desarrollo dentro de ChatGPT, que ahora es más potente, conectado y fácil de usar.

  • 🔑 Puntos clave del anuncio:

    • Disponibilidad para usuarios Plus
      Codex ya está disponible para usuarios de ChatGPT Plus, con límites de uso generosos durante un tiempo limitado. En momentos de alta demanda, se aplicarán límites temporales para garantizar un acceso equitativo.

    • Acceso a Internet durante la ejecución de tareas
      Codex ahora puede conectarse a Internet para instalar dependencias, ejecutar tests con recursos externos, actualizar paquetes y más.

      • El acceso a Internet estará disponible para usuarios Plus, Pro y Team. El soporte para Enterprise llegará próximamente.

      • Control total sobre los permisos de red
        El acceso a Internet está desactivado por defecto. Los usuarios pueden activarlo al crear o editar un entorno, especificando qué dominios y métodos HTTP están permitidos.

    • Mejoras de usabilidad muy esperadas
      Ahora, cuando se hace seguimiento a una tarea, Codex actualizará el pull request existente en lugar de crear uno nuevo. Además, las organizaciones con SSO no tendrán que configurar MFA por separado.

  • 🎯 Implicaciones
    Estas mejoras posicionan a Codex como un entorno de desarrollo inteligente más autónomo y útil para tareas reales. Su acceso a Internet controlado le permite evolucionar de asistente a colaborador técnico capaz de construir, probar e iterar en proyectos reales.

  • LINK: https://help.openai.com/en/articles/11428266-codex-changelog

OpenAI lanza Agents SDK en TypeScript y mejora su IA de voz

  • OpenAI amplía su ecosistema de agentes inteligentes con una actualización clave: el Agents SDK ya está disponible en TypeScript, igualando en funcionalidades a la versión Python. Además, se han lanzado importantes mejoras para la creación de agentes de voz y el seguimiento de sus ejecuciones.

  • 🔑 Puntos clave del anuncio

    • SDK en TypeScript: Compatible con handoffs, guardrails, tracing y MCP. Permite desarrollar agentes complejos directamente en entornos web o fullstack JavaScript.

    • Human-in-the-loop: Se pueden pausar herramientas, almacenar el estado del agente y reanudar tras una aprobación o rechazo manual.

    • Agentes de voz en tiempo real que hablan y escuchan en el navegador o servidor, incluyendo herramientas, interrupciones y manejo de audio automático.

    • Traces Dashboard actualizado: Ahora muestra las sesiones de voz en tiempo real, visualizando cada paso (audio, herramientas, interrupciones).

    • Nuevo modelo de voz mejorado: Más fiable al seguir instrucciones, más preciso en llamadas a herramientas, mejor manejo de interrupciones, y convelocidad de habla.

ChatGPT mejora su voz: más natural y multilingüe

  • OpenAI ha actualizado la función de voz avanzada en ChatGPT, disponible para todos los usuarios de pago. Las conversaciones suenan mucho más naturales y fluidas, y además el sistema puede traducir de forma continua en múltiples turnos hasta que se le indique lo contrario. Ideal para quienes usan la voz como interfaz principal con la IA.

La función de memoria personalizada empieza a llegar también a los usuarios gratuitos.

  • Ahora, ChatGPT tiene en cuenta no solo la memoria guardada, sino también tus conversaciones recientes, lo que permite respuestas más ajustadas a tus intereses y estilo. Un paso más hacia un asistente verdaderamente personal.

Anthropic

Claude estrena Integraciones y modo de Investigación avanzada

  • Claude amplía su alcance conectándose a tus herramientas y datos empresariales, y mejora su capacidad de investigación con informes más profundos y citados, todo integrado en sus planes de pago.

  • 🔑 Puntos clave

    1. Integraciones MCP remotas: Claude se enlaza con servidores MCP en la nube y en escritorio, obteniendo contexto profundo y capacidad de ejecutar acciones dentro de tus aplicaciones.

    2. Primeras 10 integraciones: Jira, Confluence, Zapier, Cloudflare, Intercom, Asana, Square, Sentry, PayPal, Linear; pronto llegarán Stripe, GitLab y Box.

    3. Desarrollo ágil: los equipos pueden crear una integración en ~30 min gracias a la documentación y al soporte de Cloudflare (OAuth y despliegue incluidos).

    4. Investigación avanzada: al activar Research, Claude divide la consulta, busca en la web, Google Workspace y las integraciones, y devuelve un informe completo en 5-45 min con citas.

    5. Disponibilidad ampliada: Integraciones y Research ya están en los planes Pro, Max, Team y Enterprise; la búsqueda web se habilita globalmente para todos los planes de pago.

  • 🎯 Por qué importa
    Estas novedades fortalecen el ecosistema de IA empresarial: conectan datos y herramientas críticas, acortan tiempos de investigación y democratizan capacidades de copiloto experto, potenciando productividad y acelerando la adopción de soluciones de IA confiables.

  • LINK: https://www.anthropic.com/news/integrations

Claude Gov: la IA de Anthropic para seguridad nacional

  • Anthropic ha presentado Claude Gov, una versión personalizada de sus modelos diseñada específicamente para agencias de seguridad nacional de EE.UU. Ya está siendo utilizada en entornos clasificados, y su acceso está restringido a organizaciones que operan en ese nivel. Un movimiento que refuerza la alianza entre IA avanzada y defensa estatal.

  • LINK: https://www.anthropic.com/news/claude-gov-models-for-u-s-national-security-customers

Google

Gemini 2.5 Pro se actualiza y ya está listo para producción

  • Google ha lanzado una versión mejorada de Gemini 2.5 Pro, su modelo de lenguaje más avanzado hasta la fecha. Esta actualización, mostrada inicialmente en Google I/O, ya está disponible en vista previa y se convertirá en la versión estable para aplicaciones empresariales en pocas semanas.

  • 🔑 Claves de Gemini 2.5 Pro-preview-06-05

    • Mejoras significativas en benchmarks
      Gemini 2.5 Pro sube 24 puntos en LMArena, liderando con 1470 Elo, y 35 puntos en WebDevArena, alcanzando 1443. También domina en Aider Polyglot (codificación compleja), GPQA y Humanity’s Last Exam, indicadores exigentes en razonamiento y conocimiento avanzado.

    • Más creatividad y mejor estructura
      En respuesta a comentarios de usuarios anteriores, el modelo ahora genera respuestas más creativas y bien formateadas, mejorando su utilidad en redacción, asistencia técnica y tareas analíticas.

    • Despliegue amplio y herramientas de control
      Ya disponible en Google AI Studio, Vertex AI y la app de Gemini, el modelo ahora incluye “thinking budgets”, una función que permite ajustar costes y latencia en entornos de desarrollo profesional.

  • 🎯 ¿Por qué importa?
    Este lanzamiento marca un paso firme de Google en la carrera por los modelos fundacionales más capaces, enfocados no sólo en benchmarks, sino también en despliegue real para empresas.

  • LINK: https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/

🗣️ Gemini 2.5 revoluciona el audio conversacional en IA

  • La nueva versión de Gemini 2.5 permite interacciones orales fluidas, personalizables y multimodales que mejoran radicalmente la forma en que las personas se comunican con la inteligencia artificial.

  • 🔑 Puntos clave del avance

    1. Diálogo de audio en tiempo real y con contexto
      Gemini 2.5 entiende y genera audio de forma nativa, permitiendo conversaciones expresivas con baja latencia. Es capaz de detectar cuándo hablar y cuándo no, ignorando ruidos de fondo o conversaciones irrelevantes.

    2. Control de estilo y emociones
      A través de prompts en lenguaje natural, se puede ajustar la entonación, acento, velocidad, emociones o incluso hacer que el modelo susurre. Esto aporta un nivel de control sin precedentes en la generación de voz.

    3. Capacidades multilingües y multimodales
      Compatible con más de 24 idiomas y capaz de mezclar lenguas en una sola frase. También puede razonar sobre audio y video en streaming, generando respuestas basadas en lo que ve y escucha.

    4. Generación avanzada de texto a voz (TTS)
      Gemini 2.5 permite producir desde narraciones hasta diálogos entre múltiples voces, controlando ritmo, pronunciación, tono y emociones. Ideal para aplicaciones en podcasts, videojuegos o asistentes virtuales.

    5. Seguridad integrada y transparencia
      Todo audio generado lleva incrustado SynthID, una marca de agua que permite identificar contenido creado por IA, reforzando el compromiso con un uso ético y seguro de esta tecnología.

Microsoft

Los agentes Investigador y Analista ya están disponibles en general en Microsoft 365 Copilot

  • Microsoft anuncia la disponibilidad general de sus dos agentes más avanzados, diseñados para entornos de trabajo y ya integrados en Microsoft 365 Copilot:

    • Researcher: especializado en investigación compleja paso a paso. Ayuda a obtener insights profundos combinando modelos de OpenAI con búsqueda avanzada y orquestación en Microsoft 365.

    • Analyst: actúa como un data scientist virtual, usando razonamiento iterativo y ejecución en Python para transformar datos en decisiones. Ideal para análisis de negocio, comportamiento de clientes y más.

  • LINK: https://www.microsoft.com/en-us/microsoft-365/blog/2025/03/25/introducing-researcher-and-analyst-in-microsoft-365-copilot/

Microsoft agrega un creador de vídeos gratuito en la aplicación móvil de Bing, impulsado por Sora de OpenAI

ElevenLabs lanza Eleven v3: voces más humanas que nunca

  • La nueva versión alpha de su modelo de texto a voz ya está disponible. Eleven v3 permite generar diálogos con múltiples voces, efectos emocionales como [excited] o [sighs] y soporta más de 70 idiomas. Aunque requiere más prompt engineering, la calidad del audio es impactante. Durante junio, lo ofrecen con un 80% de descuento. Ideal para creadores de contenido que buscan realismo vocal.

Manus añade la generación de vídeos

  • Manus AI entra en el terreno de la generación de vídeo con una propuesta ambiciosa: crear historias completas y animadas a partir de un único prompt. El sistema estructura escenas, diseña el aspecto visual y genera la animación, todo en minutos. Ideal para concept artists, storytellers y creadores visuales. Ya disponible en acceso anticipado para usuarios registrados.

Luma lanza "Modify Video": cambia el estilo de cualquier vídeo con IA

  • Luma AI presenta Modify Video, una herramienta que permite transformar cualquier vídeo existente con control total sobre el estilo, los personajes y el entorno. Ideal para creadores: graba una vez y reinventa tu escena infinitamente, desde el look visual hasta la ambientación. Un nuevo nivel de edición en postproducción con IA.

HeyGen mejora sus avatares con gestos y microexpresiones realistas

  • HeyGen actualiza su modelo Avatar IV con funciones que lo acercan aún más al nivel humano:

    • Gestos dinámicos generados a partir del guión

    • Control gestual vía prompt

    • Microexpresiones hiperrealistas

    • Vídeos en 1080p y hasta 60 segundos

Robots

Helix - Logistics

Reflexiones Finales

Hackeando la Inteligencia Artificial. Backdoors y otros métodos