Boletín Semanal Best-IA #76

Aprende IA, día a día.

Tutoriales

GPT o1 Full Tutorial

Gemini Flash 2.0 Thinking: Razona con tus Documentos Gratis (¡1.000.000 de tokens!)

Noticias

DeepSeek-R1: El Modelo de Razonamiento Open Source que Desafía a OpenAI o1

  • La compañía china DeepSeek AI ha lanzado DeepSeek-R1, un modelo de inteligencia artificial de razonamiento con 671 mil millones de parámetros que busca competir directamente con los líderes del mercado, como OpenAI. Bajo una licencia MIT, este modelo permite uso comercial y promete avances significativos en matemáticas, programación y eficiencia de costos.

  • Puntos clave:

    1. Rendimiento sobresaliente:
      DeepSeek-R1 supera o iguala a modelos de OpenAI en benchmarks como AIME y SWE-bench Verified, gracias a su capacidad de razonamiento y cadenas de pensamiento internas. Este modelo utiliza técnicas como el entrenamiento por refuerzo (RL), inspirado en paradigmas exitosos como AlphaGo.

    2. Eficiencia y accesibilidad:
      Este modelo combina una arquitectura tipo "Mixture of Experts" (MoE), que optimiza los recursos necesarios, con precios significativamente más bajos (30x más barato) que los de OpenAI. Esto lo convierte en una opción muy atractiva para investigadores y empresas.

    3. Transparencia y potencial para la comunidad:
      A diferencia de competidores, DeepSeek-R1 es completamente open source. Su receta de entrenamiento abre la puerta para que otros desarrollen modelos basados en este enfoque, ampliando las oportunidades para innovación en inteligencia artificial.

  • El lanzamiento de DeepSeek-R1 marca un hito en la democratización de la IA avanzada. Su modelo de razonamiento, combinado con costos competitivos y apertura, no solo presiona a gigantes como OpenAI, sino que también impulsa la colaboración en la comunidad global. Este avance podría acelerar la adopción de soluciones accesibles, transformando el panorama de la inteligencia artificial en diversas industrias.

Kimi k1.5: Nuevo Modelo Multimodal de Razonamiento al nivel de o1

  • Kimi k1.5, el nuevo modelo multimodal de la compañía china Moonshot AI , también ha alcanzado niveles de razonamiento comparables a OpenAI o1 utilizando técnicas de aprendizaje por refuerzo (RL). Con un rendimiento sobresaliente en benchmarks como AIME y MATH-500, este modelo ofrece mejoras significativas en tareas de razonamiento de corto y largo plazo, superando a modelos como GPT-4o y Claude Sonnet 3.5.

  • Puntos clave:

    1. Rendimiento multimodal líder:
      Kimi k1.5 logra un rendimiento excepcional en tareas de razonamiento matemático y programación, con resultados como 77.5 en AIME y el percentil 94 en Codeforces. Estas cifras colocan al modelo a la par con OpenAI o1 y destacan su capacidad para tareas complejas en múltiples modalidades.

    2. Avances en razonamiento corto y largo plazo:
      El modelo incorpora innovadoras técnicas "long-to-short" que transfieren aprendizajes del razonamiento de largo plazo (long-CoT) al corto plazo (short-CoT), mejorando drásticamente benchmarks como LiveCodeBench (+550% frente a GPT-4o). Esto refuerza su versatilidad y eficacia en tareas con diferentes contextos de razonamiento.

    3. Simplificación del entrenamiento con RL:
      A diferencia de enfoques más complejos, Kimi k1.5 utiliza un marco de RL simplificado que prescinde de técnicas como búsquedas Monte Carlo o modelos de recompensa. Este enfoque eficiente no solo optimiza recursos, sino que también demuestra que RL puede escalar para mejorar el rendimiento de modelos de lenguaje en múltiples modalidades.

Operator: OpenAI presenta sus Agentes Autónomos

  • Una nueva herramienta de OpenAI, Operator, está aquí para agilizar tareas en línea permitiendo que un agente virtual interactúe con sitios web en tu nombre. Actualmente en vista previa de investigación, está disponible para usuarios Pro en los EE. UU. Operator puede realizar diversas tareas, como completar formularios, pedir comestibles o incluso crear memes, navegando por la web con su propia interfaz de navegador.

  • Características Clave:

    1. Interacciones Autónomas en la Web:
      Impulsado por el modelo Computer-Using Agent (CUA), Operator puede interactuar con las interfaces gráficas de usuario (GUIs) en sitios web, incluidos botones, menús y campos de texto. También puede corregir errores cuando se enfrenta a desafíos, proporcionando una experiencia de usuario fluida.

    2. Gestión de Tareas y Personalización:
      Los usuarios pueden delegar tareas repetitivas a Operator, ahorrando tiempo en actividades diarias como reabastecer comestibles o hacer reservas. El sistema permite la personalización para sitios web específicos, con la opción de guardar instrucciones para un fácil acceso futuro.

    3. Experiencia Colaborativa con la IA:
      Si Operator encuentra desafíos complejos como CAPTCHAs o requiere detalles sensibles como información de pago, puede solicitar que el usuario asuma el control. Este enfoque colaborativo asegura que el control permanezca en manos del usuario cuando sea necesario.

  • Operator marca un paso importante en el papel de la IA como participante activo en el ecosistema digital. Al automatizar tareas web rutinarias, no solo aumenta la eficiencia, sino que también crea nuevas oportunidades para que empresas y gobiernos ofrezcan mejores servicios. El futuro promete expandir el alcance de Operator a más usuarios e industrias, especialmente en aplicaciones del sector público, lo que lo convierte en una herramienta poderosa para mejorar la accesibilidad y la participación en diversos flujos de trabajo.

  • Además, OpenAI ha añadido Canvas a o1, permitiendo la creación de aplicaciones React/HTML

Stargate Project: La Mega Iniciativa de Infraestructura en IA de EE.UU.

  • El presidente Donald Trump ha anunciado el Stargate Project, una iniciativa de infraestructura en inteligencia artificial valorada en 500.000 millones de dólares. Liderado por OpenAI, SoftBank y Oracle, este proyecto busca posicionar a EE.UU. como líder mundial en IA, impulsando el desarrollo de la Inteligencia Artificial General (AGI) y otras aplicaciones clave.

  • Puntos Clave:

    1. Desarrollo de AGI
      Sam Altman, CEO de OpenAI, destacó que el Stargate Project es esencial para avanzar en la AGI, con el objetivo de crear inteligencia artificial capaz de beneficiar a la humanidad en múltiples sectores.

    2. Impacto en la Salud y la Economía
      La IA tendrá un papel clave en el tratamiento de enfermedades, acelerando la cura de condiciones como el cáncer y enfermedades cardíacas. Además, se espera la creación inmediata de más de 100.000 empleos en EE.UU., impulsando el crecimiento económico.

    3. Seguridad Nacional y Liderazgo Tecnológico
      El proyecto fortalecerá la infraestructura estratégica del país y asegurará que EE.UU. mantenga su dominio en el sector tecnológico global. La construcción de grandes centros de datos ya ha comenzado en Texas.

  • El Stargate Project representa una inversión sin precedentes en IA, consolidando a EE.UU. como el epicentro del desarrollo tecnológico. Su impacto se reflejará en avances médicos, crecimiento económico y seguridad nacional, además de reforzar su liderazgo frente a competidores globales. Con el respaldo de gigantes tecnológicos como Microsoft, NVIDIA y Arm, este proyecto podría redefinir el futuro de la inteligencia artificial en el mundo.

  • LINK: https://openai.com/index/announcing-the-stargate-project/ 

Perplexity Assistant: Un Asistente Inteligente para tus Tareas Diarias

  • Perplexity Assistant es una nueva herramienta que puede responder preguntas hasta coordinar acciones en múltiples aplicaciones, ofreciendo una experiencia más fluida y contextualizada para el usuario.

  • Tres Claves sobre Perplexity Assistant

    1. Búsqueda Inteligente y Automatizada
      Responde preguntas y navega por la web para encontrar información en tiempo real. Por ejemplo, si necesitas recordar la fecha de un evento público, el asistente la buscará por ti y configurará un recordatorio preciso.

    2. Mantenimiento de Contexto
      A diferencia de otros asistentes, Perplexity mantiene la coherencia entre interacciones. Si comienzas buscando restaurantes en tu zona y luego decides hacer una reserva, el asistente dará el siguiente paso sin que tengas que repetir la información.

    3. Interacción Multimodal
      Este asistente va más allá de los comandos de voz o texto. Puede activar la cámara y analizar lo que ve para ofrecer información relevante, lo que abre nuevas posibilidades en reconocimiento visual y asistencia en tiempo real.

  • Además, ya está disponible Sonar, su API para Perplexity. Sonar es la API de búsqueda más asequible del mercado.

Google refuerza su asistente con nuevas capacidades en Android

  • Google ha anunciado en el evento Samsung Galaxy Unpacked nuevas funciones para su asistente de IA, Gemini, con el objetivo de hacerlo más versátil, personalizado y accesible en dispositivos Android. Estas son las principales novedades:

    • 1. Interacción con imágenes, videos y archivos
      La función Gemini Live ahora permite a los usuarios compartir imágenes, archivos y videos de YouTube dentro de la conversación con el asistente. Esta capacidad ya está disponible en las series Samsung Galaxy S24, S25 y Pixel 9, con una expansión a otros dispositivos Android en las próximas semanas.

    • 2. Mayor integración con aplicaciones
      Gemini ahora se conecta con más extensiones, incluyendo apps de Samsung como Calendar, Notes, Reminder y Clock. Además, admite comandos que combinan múltiples extensiones en un solo prompt, permitiendo, por ejemplo, buscar recetas y guardarlas directamente en Samsung Notes o Google Keep.

    • 3. Accesibilidad mejorada
      En los dispositivos Galaxy S25, los usuarios podrán acceder a Gemini simplemente manteniendo presionado el botón lateral. Además, se introduce "Deep Research", una función avanzada que ayuda a los usuarios a realizar investigaciones de manera más eficiente.

Qwen2.5-1M: Modelos Open-Source con un Contexto de 1 Millón de Tokens

  • Qwen2.5-1M, una serie de modelos de código abierto que amplían drásticamente la capacidad de contexto a 1 millón de tokens. Esta innovación redefine el procesamiento y análisis de información a gran escala.

  • Tres Claves sobre Qwen2.5-1M

    • Modelos de Código Abierto con Contexto Extendido
      La serie incluye los modelos Qwen2.5-7B-Instruct-1M y Qwen2.5-14B-Instruct-1M, diseñados para manejar grandes volúmenes de información sin perder coherencia.

    • Inferencia Ultra-Rápida
      Qwen2.5-1M se apoya en un marco de inferencia basado en vLLM con métodos de atención dispersa, lo que permite procesar entradas de 1M de tokens hasta 7 veces más rápido en comparación con modelos anteriores.

    • Profundización Técnica
      Para quienes buscan detalles sobre la arquitectura y optimizaciones, el equipo ha publicado un informe técnico detallado que explica el funcionamiento y los avances detrás de esta nueva generación de modelos.

  • LINK: https://qwenlm.github.io/blog/qwen2.5-1m/

  • Pruébalo en https://chat.qwenlm.ai/

Hunyuan3D 2.0: Nuevo modelo de Tencent de última generación para generar 3D a partir de imágenes y texto

Robots

Actualización de Lynx (Deep Robotics)

Reflexiones Finales

Musk Predice un Futuro Radicalmente Diferente en los Próximos 5 a 10 Años

  • La IA reemplazará todas las tareas cognitivas en menos de 5 años.

  • Los robots humanoides reemplazarán casi todos los trabajos físicos.

  • El concepto de "trabajo" podría desaparecer, dando lugar a una economía de abundancia.

  • La colonización de Marte será clave para la supervivencia de la humanidad.

  • La fusión cerebro-IA con Neuralink podría redefinir lo que significa ser humano.

  • Musk cree que el futuro será increíblemente bueno, pero plantea preguntas fundamentales:

    • Si la IA y los robots pueden hacer todo, ¿qué nos dará propósito?

    • ¿Cómo manejaremos la transición a una economía sin trabajo humano

    • ¿Cómo asegurarnos de que la IA permanezca alineada con los intereses humanos?

Dario Amodei y Kevin Weil: AGI posiblemente antes de 2027