Boletín Semanal Best-IA #114

Aprende IA, día a día.

Tutoriales

Google actualiza AI Studio. 6 casos de uso

Google acaba de convertir AI Studio en un creador de aplicaciones completo. Similar a Lovable o Bolt, pero impulsado por Gemini.

  • Escribe un mensaje → Obtén una aplicación web funcional → Impleméntala al instante.

Noticias

ChatGPT Atlas: el navegador que piensa contigo

OpenAI ha lanzado ChatGPT Atlas, un navegador con ChatGPT integrado en su núcleo. La idea es revolucionar la forma en que usamos la web: pasar de buscar y hacer clic, a colaborar activamente con una IA que entiende tu contexto, recuerda tus preferencias y puede actuar por ti directamente en la página.

🔑 Puntos clave

  1. Atlas integra ChatGPT directamente en el flujo de navegación. Puedes pedirle ayuda desde cualquier web.
    ChatGPT entiende lo que estás viendo, recuerda información relevante y usa tu memoria integrada para continuar proyectos, investigar temas o completar tareas con contexto.

  2. Memorias del navegador y control total
    Con tu permiso, Atlas puede recordar detalles de los sitios que visitas para ofrecerte respuestas más útiles y sugerencias personalizadas —como continuar la búsqueda de regalos o resumir ofertas laborales vistas días antes.
    Todo está bajo tu control: puedes ver, archivar o borrar memorias desde Settings, usar modo incógnito o desactivar la visibilidad en páginas específicas.
    🔒 Por defecto, tu contenido no se usa para entrenar los modelos y no se comparte sin permiso.

  3. Agent Mode: tu asistente hace el trabajo por ti
    Atlas estrena una versión mejorada del modo agente: ChatGPT puede abrir pestañas, buscar información, reservar restaurantes o añadir productos al carrito.
    Está disponible en vista previa para usuarios Plus, Pro y Business.
    Incluye un “modo desconectado” para acciones seguras sin acceder a tus cuentas, y un “Watch Mode” que pausa las acciones en sitios sensibles para mantenerte siempre al tanto.

  4. Seguridad y defensa contra ataques
    OpenAI reconoce los nuevos riesgos de la navegación con agentes —como las prompt injections ocultas en webs o correos— y ha desarrollado entrenamientos específicos, red-teaming y múltiples capas de defensa.
    Atlas no puede ejecutar código, instalar extensiones ni acceder a tu sistema de archivos. Las acciones se supervisan y se detienen automáticamente en entornos sensibles.

  5. Atlas ya está disponible en macOS para usuarios Free, Plus, Pro y Go, y en beta para Business, Enterprise y Edu. Próximamente llegará a Windows, iOS y Android.

🎯 ChatGPT Atlas se incorpora a la nueva era en la navegación: una web donde la IA no sólo responde, sino que colabora, recuerda y actúa.
Es un paso más hacia el navegador agente, capaz de combinar inteligencia contextual, privacidad y acción directa, redefiniendo cómo trabajamos, aprendemos y exploramos en línea.

ChatGPT se vuelve colaborativo

OpenAI ha añadido la función de proyectos compartidos: puedes crear espacios donde subir archivos, conversar, y trabajar con otros usuarios, incluso si tienen cuentas gratuitas. Se pueden dar permisos de edición, compartir enlaces públicos y colaborar en tiempo real como si fuera un Google Docs con IA integrada.

Microsoft introduce Copilot Mode en su navegador Edge

Microsoft también ha convertido a Edge en un navegador que colabora activamente contigo.

🔑 Novedades principales

  1. Copilot Mode
    Edge se convierte en un asistente proactivo capaz de anticipar tareas y ayudarte con varios pasos a la vez. Puede recordar sesiones anteriores, mantener el contexto de tus páginas abiertas y ofrecer sugerencias basadas en tu historial (si lo autorizas).

  2. Copilot Actions
    Puedes pedirle a Copilot que actúe —abrir webs, encontrar información o incluso cancelar suscripciones desde tu correo— sin tocar el teclado.
    Disponible gratis en vista previa limitada en EE. UU.

  3. Journeys
    Esta nueva función agrupa automáticamente tus sesiones anteriores por temas y te devuelve exactamente al punto donde lo dejaste. Ideal para proyectos pausados o investigaciones largas. También en vista previa gratuita en EE. UU.

  4. Privacidad y control total del usuario
    Copilot solo accede a tus datos con permiso explícito, y puedes desactivar el modo IA con un simple interruptor.
    Además, el navegador incorpora bloqueo local de scareware, gestión y monitoreo continuo de contraseñas, y protección frente a brechas.

🎯 Edge ya no es sólo una ventana a la web, sino un compañero digital capaz de pensar, recordar y actuar contigo.El navegador deja de ser una herramienta pasiva para convertirse en un socio inteligente en tu día a día.

DeepSeek-OCR: la enciclopedia comprimida en una sola imagen

El laboratorio chino DeepSeek vuelve a sacudir el mundo de la IA con DeepSeek-OCR, un modelo visión-lenguaje de 3.000 millones de parámetros que fusiona texto e imagen como nunca antes. No se trata sólo una mejora más de OCR: es un rediseño total de cómo las máquinas ven y comprenden la información.

🔑 Puntos clave

  1. Compresión óptica extrema
    DeepSeek-OCR logra una precisión del 97 % con una compresión 10 ×, reduciendo miles de tokens de texto a solo 100 tokens visuales por página. Supera ampliamente a GOT-OCR 2.0 (256 tokens) y MinerU 2.0 (6.000).

  2. Entrenamiento masivo y multilingüe
    Entrenado con 30 millones de páginas PDF en 100 idiomas y millones de escenas, gráficos y fórmulas.

  3. Rendimiento colosal y nuevas fronteras
    Capaz de analizar 200.000 páginas al día con una sola GPU A100, redefine la eficiencia del OCR y anticipa modelos que leerán documentos enteros como si fueran una imagen mental de contexto extendido.

🎯 DeepSeek-OCR inaugura una nueva frontera: la comprensión visual del texto como memoria comprimida. Este avance podría resolver los límites de contexto de los LLM y acercar una generación de modelos que “ven para razonar” —la antesala del GPT-5 visual.

Alibaba lleva Qwen al siguiente nivel: investigación viva y modelos visuales ultracompactos

Alibaba continúa su ofensiva en IA con dos anuncios que refuerzan la potencia y versatilidad de su ecosistema Qwen: la nueva plataforma Qwen Deep Research y los modelos visuales Qwen3-VL-2B y Qwen3-VL-32B.

🔑 Puntos clave

  • 1. Qwen Deep Research se vuelve multimedia
    Ahora el sistema no sólo genera informes detallados, sino también páginas web interactivas y podcasts, integrando los módulos Qwen3-Coder, Qwen-Image y Qwen3-TTS.
    👉 Un único prompt produce análisis, visualizaciones y narración de voz, haciendo la información más accesible y atractiva.

  • 2.a) Qwen3-VL-32B: potencia visual sin límites
    32.000 millones de parámetros con un rendimiento superior a GPT-5 mini y Claude 4 Sonnet en tareas de razonamiento STEM, comprensión visual (VQA, OCR, vídeo) y uso como agente.
    Iguala o supera modelos de hasta 235B, destacando en el benchmark OSWorld.

    • Versión FP8 y variantes especializadas
      Los nuevos modelos se lanzan también en formato FP8, junto a versiones Instruct y Thinking adaptadas a diferentes entornos (educación, investigación, o asistentes autónomos).

  • 2.b) Qwen3-VL-2B: inteligencia visual en el borde
    Optimizado para dispositivos edge, ofreciendo máxima relación rendimiento-memoria y abriendo la puerta a aplicaciones locales con visión y lenguaje integrados.

🎯 Alibaba consolida a Qwen como uno de los ecosistemas más completos del panorama IA: modelos escalables, razonamiento visual de alto nivel y una plataforma de investigación que convierte datos en experiencias narrativas.
Un paso firme hacia la convergencia total entre texto, imagen y voz en la nueva generación de agentes inteligentes.

LTX-2: el motor creativo open-source que planta cara a Sora 2 y Veo 3

El equipo de LTX ha presentado LTX-2, un nuevo modelo generativo que promete competir directamente con los titanes cerrados de la creación audiovisual, como Sora 2 (OpenAI) y Veo 3 (Google DeepMind).

🔑 Puntos clave

  1. Generación sincronizada de audio y video
    LTX-2 produce clips con imagen y sonido generados de forma conjunta, evitando el clásico desfase entre voz, ambiente y movimiento.

  2. Calidad nativa 4K y fluidez profesional
    Soporta resolución 4K, hasta 50 fps y secuencias de más de 10 segundos, ofreciendo resultados listos para proyectos comerciales o cinematográficos.

  3. Diseño API-first
    Pensado para integrarse en flujos de trabajo creativos (postproducción, animación, publicidad o VR), permitiendo automatizar y escalar la generación de contenido.

  4. Eficiencia en hardware de consumo
    A diferencia de otros modelos cerrados, LTX-2 puede ejecutarse en GPUs domésticas, democratizando el acceso a la creación audiovisual generativa.

  5. Código y pesos abiertos
    Su versión open-source completa, incluidos los pesos del modelo, se publicará a finales de año bajo la licencia MIT.

🎯 Con LTX-2, la IA generativa audiovisual entra en la era open-source. Por primera vez, los creadores podrán experimentar con un motor de nivel Sora 2 o Veo 3 sin depender de infraestructuras propietarias, ampliando los límites de la creatividad digital.

Claude incorpora memoria

Anthropic ha lanzado la nueva función de memoria en Claude, disponible desde hoy para usuarios Pro y Max, y en despliegue para equipos y empresas. Con esta actualización, Claude deja de ser una simple interfaz conversacional y se convierte en un asistente que recuerda tu contexto profesional, ayudando a mantener proyectos, procesos y prioridades sin necesidad de repetir información.

🔑 Puntos clave

  1. Memoria diseñada para el trabajo en equipo
    Claude ahora recuerda los proyectos, clientes y procesos de tu equipo, lo que permite continuar tareas complejas sin reconstruir el contexto cada vez.
    Cada proyecto tiene su memoria independiente, evitando mezclas entre áreas sensibles o temas distintos, como lanzamientos de producto y trabajo con clientes.

  2. Control total y transparencia
    Los usuarios pueden ver, editar o eliminar lo que Claude recuerda desde un resumen de memoria centralizado.

  3. Modo Incógnito: sin memoria, sin rastro
    Para conversaciones confidenciales o sesiones de ideación libre, Claude ofrece chats incógnitos que no se guardan en el historial ni en la memoria.
    Ideal para discusiones estratégicas, pruebas o temas sensibles.

  4. Privacidad y control empresarial
    En planes Enterprise, los administradores pueden activar o desactivar la memoria a nivel organizativo. Claude respeta las políticas de retención de datos de cada empresa y no utiliza las memorias para entrenar modelos.

  5. Implementación gradual y segura
    Anthropic aplica un despliegue progresivo, enfocado en entornos de trabajo donde la memoria aporta productividad sin invadir la privacidad. La expansión al resto de usuarios llegará tras esta fase de evaluación.

Google logra la primera ventaja cuántica verificable con su chip Willow

Google Quantum AI ha anunciado un avance histórico en computación cuántica: por primera vez, un algoritmo cuántico verificado ha superado el rendimiento de los superordenadores clásicos, marcando un antes y un después en el camino hacia aplicaciones reales de esta tecnología.

🔑 Puntos clave

  1. El equipo de Google ha ejecutado en su chip Willow un nuevo algoritmo llamado Quantum Echoes, capaz de calcular la estructura molecular a partir de datos de resonancia magnética nuclear (NMR).
    El resultado: 13.000 veces más rápido que uno de los superordenadores más potentes del mundo.

  2. Es la primera vez en la historia que un ordenador cuántico logra ejecutar un algoritmo verificable y repetible que supera el rendimiento de la computación clásica, consolidando el concepto de quantum advantage con evidencia reproducible.

  3. Este avance abre la puerta a nuevas aplicaciones en descubrimiento de fármacos y ciencia de materiales, donde la simulación precisa de moléculas resulta clave y los métodos clásicos alcanzan sus límites computacionales.

  4. El siguiente paso en la hoja de ruta de Google Quantum AI es construir un qubit lógico de larga duración, pieza esencial para la computación cuántica práctica y escalable.

🎯 Quantum Echoes, Google alcanza un hito científico sin precedentes: la primera ventaja cuántica verificable. Este logro convierte a Willow en un símbolo del futuro de la computación —un futuro donde la mecánica cuántica acelera la innovación en biología, química y materiales a niveles antes inimaginables.

Robots

🤖 LeRobot: el “PyTorch de la robótica” llega de la mano de Hugging Face y Oxford

Hugging Face y la Universidad de Oxford han presentado LeRobot, un framework open source que promete ser para la robótica lo que PyTorch es para el aprendizaje profundo: una plataforma unificada, accesible y lista para la era de los robots que aprenden como los LLMs.

🔑 Puntos clave

  1. Aprendizaje de datos, no sólo de ecuaciones
    LeRobot permite que los robots aprendan directamente de datos multimodales (vídeo, sensores, texto) del mismo modo que los modelos de lenguaje lo hacen del texto, reemplazando el enfoque tradicional basado en reglas.

  2. Modelo generalista de control
    Un solo modelo puede manejar múltiples tipos de robots —desde brazos industriales hasta humanoides o robots móviles— gracias a una arquitectura generalista entrenada con enormes datasets de comportamiento real.

  3. Diseño abierto y práctico
    Construido íntegramente en PyTorch e integrado con Hugging Face Hub, incluye código end-to-end y compatibilidad con hardware real, facilitando la colaboración y la reproducibilidad en investigación robótica.

  4. Fundamentos para la inteligencia motriz
    Así como existen foundation models para texto, imágenes o código, LeRobot propone uno para el movimiento, sentando las bases para que las máquinas razonen, se adapten y aprendan del entorno físico.

  5. Totalmente open source
    Código y datasets disponibles en GitHub y arXiv.

Reflexiones Finales

La “singularidad” no es un estallido, es una pendiente que ya estamos bajando