Boletín Semanal Best-IA #86

Aprende IA, día a día

Tutoriales

OpenAI Academy

  • OpenAI ha lanzado la OpenAI Academy, una plataforma educativa gratuita que busca hacer accesible el aprendizaje de inteligencia artificial a nivel global. Dirigida tanto a principiantes como a profesionales, su objetivo es empoderar a individuos y comunidades mediante formación práctica y ética en el uso de la IA.

  • 3 puntos clave:

    1. Formación inclusiva y para todos los niveles
      La academia ofrece talleres, tutoriales, videos y contenido interactivo que cubren desde conceptos básicos hasta temas técnicos avanzados. Está diseñada para que cualquier persona, sin importar su experiencia previa, pueda aprender a utilizar la IA de forma efectiva y segura.

    2. Apoyo práctico y recursos para desarrolladores
      OpenAI ha puesto a disposición recursos como créditos gratuitos de API (inicialmente 1 millón de dólares) para facilitar la experimentación con sus modelos. Esto impulsa la creación de soluciones en sectores clave como la educación, la salud y la agricultura.

    3. Fomento de la colaboración y el pensamiento crítico
      La plataforma no solo enseña a usar herramientas, también promueve la reflexión sobre el impacto social y ético de la IA. Además, incluye eventos, foros y comunidades que estimulan la conexión entre participantes de distintas partes del mundo.

Más de 50 formas increíbles de usar ChatGPT para generar imágenes

Noticias

Meta lanza Llama 4: IA multimodal de nueva generación

  • Meta ha presentado oficialmente sus modelos Llama 4, marcando su entrada en la carrera por la inteligencia artificial nativamente multimodal. Con dos versiones ya disponibles, Scout y Maverick, y una tercera aún en entrenamiento, la compañía da un salto importante en capacidades de procesamiento, contexto y rendimiento frente a modelos líderes como GPT-4o o Gemini 2.0.

  • 3 puntos clave:

    1. Modelos más eficientes y potentes
      Llama 4 Scout y Maverick comparten una arquitectura de mixture-of-experts con 17 mil millones de parámetros activos, lo que les permite combinar alto rendimiento con eficiencia en costes de inferencia. Scout se destaca por una ventana de contexto de 10 millones de tokens —ideal para tareas de largo alcance—, mientras que Maverick ofrece una comprensión visual superior, anclando respuestas directamente en regiones de las imágenes.

    2. Codistilados desde un "Behemoth" en entrenamiento
      Ambos modelos fueron entrenados mediante codistilación a partir de Llama 4 Behemoth, un modelo colosal de 288B parámetros activos. Aunque aún está en desarrollo, Behemoth ya supera a GPT-4.5 y Claude 3.7 en benchmarks científicos, lo que sugiere que Meta está construyendo una futura IA de referencia para tareas complejas.

    3. Innovaciones técnicas y mejor alineación
      Meta ha introducido nuevas técnicas de entrenamiento como "MetaP" (optimización de hiperparámetros) y aprendizaje por refuerzo en tiempo real con filtrado adaptativo. Además, los modelos muestran menor sesgo político y mejor equilibrio en rechazos de contenido, una mejora importante en la alineación con el usuario.

  • El lanzamiento de Llama 4 representa un avance clave en la evolución de modelos de IA abiertos, capaces de razonar, programar y comprender imágenes a niveles cercanos (o superiores) a los modelos propietarios más avanzados. Además, al mantener una política de descarga libre de pesos, Meta no solo apuesta por la innovación, sino también por democratizar el acceso a tecnologías de última generación.

Microsoft celebra 50 años mirando al futuro: Copilot se convierte en tu nuevo compañero de vida digital

  • En su evento por el 50 aniversario, Microsoft no solo rindió homenaje a su legado con figuras como Bill Gates, Steve Ballmer y Satya Nadella, sino que presentó su visión para los próximos 50 años: una era dominada por la inteligencia artificial personalizada. En el centro de esta revolución está Copilot, una IA que evoluciona desde asistente de productividad a compañero digital para cada aspecto de la vida.

  • 3 puntos clave:

    1. Copilot como compañero personal y profesional
      Microsoft transforma a Copilot en mucho más que una herramienta. Gracias a la personalización, la memoria contextual y la interacción natural, Copilot puede ayudarte desde organizar una fiesta infantil hasta planificar un viaje, redactar cartas legales o darte apoyo emocional. Este enfoque convierte a la IA en un asistente que se adapta a tus rutinas, intereses y estilo de vida.

    2. Nuevas funciones y experiencias multisensoriales
      La integración de voz, visión por IA, agentes autónomos, generación de interfaces personalizadas, podcasts y asistentes visuales convierten a Copilot en una plataforma de experiencias. Ya es capaz de planificar actividades, editar imágenes, comparar productos, escribir con estilo personalizado y ayudarte con trámites. Todo en tiempo real y en múltiples dispositivos, incluidos el PC y el móvil.

    3. Futuro centrado en la personalización y la acción
      Microsoft anuncia una evolución continua de Copilot: memoria gráfica editable, avatares customizables, agentes para revisión de código, análisis empresarial y colaboración dinámica. Cada Copilot será único, aprendiendo del usuario, recordando su contexto y ayudándolo a pasar de la intención a la acción con rapidez y precisión.

  • Este anuncio marca un punto de inflexión: la inteligencia artificial deja de ser solo una herramienta para convertirse en una presencia cotidiana, útil y emocionalmente cercana. Microsoft no solo apunta a mejorar la productividad, sino a construir relaciones entre humanos y máquinas basadas en confianza, utilidad y personalización. Con ello, redefine el rol del software para los próximos años y democratiza el acceso a una IA realmente útil en todas las capas de la vida.

Claude for Education: Anthropic lanza su IA para transformar la educación superior

  • Anthropic ha presentado Claude for Education, una versión especializada de su IA Claude diseñada para universidades. Esta iniciativa busca impulsar el uso ético y eficaz de la inteligencia artificial en el aprendizaje, la enseñanza y la administración académica, colocando a estudiantes y profesores en el centro de la transformación educativa impulsada por la IA.

  • 3 puntos clave:

    1. Una IA centrada en el aprendizaje activo
      Claude incorpora un nuevo Learning mode que fomenta el pensamiento crítico mediante preguntas socráticas y guías estructuradas en lugar de dar respuestas directas. Este modo ayuda a los estudiantes a desarrollar autonomía intelectual mientras organizan sus proyectos dentro de la plataforma.

    2. Alianzas institucionales y acceso a toda la comunidad
      Universidades como Northeastern, LSE y Champlain College han firmado acuerdos para ofrecer acceso completo a Claude en todos sus campus. Además, Anthropic colabora con Instructure (Canvas LMS) e Internet2 para integrar Claude de forma segura y fluida en entornos académicos existentes.

    3. Oportunidades para estudiantes y desarrolladores
      Claude for Education incluye programas como Campus Ambassadors y créditos API para estudiantes que desarrollen proyectos con IA. Estas iniciativas buscan empoderar a los estudiantes como creadores activos de soluciones y herramientas que impacten su entorno académico y profesional.

  • Claude for Education marca un nuevo enfoque en la aplicación de IA en la enseñanza superior, no como sustituto del pensamiento humano, sino como catalizador del aprendizaje profundo, la innovación y la inclusión. Al combinar acceso abierto, enfoque pedagógico y herramientas técnicas avanzadas, esta iniciativa podría establecer un nuevo estándar en cómo se enseña, aprende y gestiona la educación en la era de la inteligencia artificial.

Amazon lanza Nova Act: agentes de IA que navegan la web por ti

  • Amazon Science ha presentado Nova Act, un nuevo sistema para crear agentes de inteligencia artificial capaces de interactuar con navegadores web de forma confiable y automatizada. Desde tareas simples hasta flujos de trabajo complejos, Nova Act busca facilitar la creación de agentes que realmente hagan cosas en internet.

  • 3 puntos clave:

    1. IA que opera navegadores como un humano (pero sin quejarse)
      Nova Act permite a los desarrolladores construir agentes que pueden navegar interfaces web, hacer reservas, enviar correos, automatizar QA y mucho más. Todo con tan solo tres líneas de código, integrando directamente con herramientas como Playwright y modelos de datos Pydantic.

    2. Flujos complejos y paralelización
      El sistema soporta la ejecución de múltiples agentes en paralelo mediante thread pools, lo que permite realizar tareas a escala, como extraer información de múltiples sitios o ejecutar acciones programadas (por ejemplo, entregar ensaladas cada martes a Vishal).

    3. Interacción fluida con código Python
      Nova Act permite intercalar Python con acciones del agente, haciendo posible flujos tipo MapReduce a través de la web. Esto convierte a internet en un espacio navegable por IA, donde los agentes no solo leen, sino también actúan con lógica y contexto.

  • Nova Act representa una evolución significativa en la creación de agentes autónomos: ahora no solo entienden, también ejecutan en entornos reales como la web. Con este enfoque, Amazon acerca el desarrollo de agentes prácticos a cualquier persona con conocimientos básicos de Python, habilitando nuevas formas de automatización personal y empresarial. Es un paso firme hacia agentes que realmente hacen el trabajo por ti.

Runway Gen-4: generación de imagen y video coherente, realista y sin límites

  • Runway ha lanzado Gen-4, su nueva serie de modelos de IA para generación de imágenes y videos. Esta tecnología marca un antes y un después en la creación de contenido visual, al permitir una coherencia narrativa total en personajes, objetos y escenarios sin necesidad de entrenamiento adicional.

    Puntos clave:

    1. Coherencia visual automática: Con solo una imagen de referencia, Gen-4 puede mantener personajes y objetos consistentes a lo largo de distintas escenas, estilos, locaciones e iluminaciones. Esto simplifica enormemente la creación de contenido continuo.

    2. Cobertura desde múltiples ángulos: El modelo permite representar una misma escena desde diferentes perspectivas con solo describir la composición deseada y aportar imágenes de referencia, optimizando el proceso de producción.

    3. Simulación de física realista: Gen-4 representa un avance hacia modelos generativos que comprenden el mundo físico, recreando movimientos naturales y comportamientos realistas en video.

    4. Calidad y comprensión avanzada: Este modelo genera videos listos para producción, con gran fidelidad al estilo solicitado, movimiento dinámico, y comprensión profunda del lenguaje visual y del entorno representado.

    5. Integración con efectos visuales (GVFX): Ofrece una nueva forma de generar efectos visuales que pueden integrarse sin fisuras con material de acción real o animación, facilitando flujos de trabajo híbridos.

    6. Versatilidad en los flujos de trabajo: Desde la creación de narrativas audiovisuales hasta fotografía de productos, Gen-4 se adapta a distintos usos creativos mediante una interfaz sencilla y procesos flexibles.

Midjourney V7 llega en fase Alpha: velocidad, personalización y más coherencia visual

  • Midjourney ha lanzado en fase alpha su esperado modelo V7, una nueva generación de generación de imágenes que promete mejoras notables en calidad, velocidad y capacidad de personalización. Ya está disponible para la comunidad, y viene cargado de novedades que redefinen la experiencia creativa.

  • 3 puntos clave:

    1. Mayor calidad y coherencia visual
      V7 destaca por su interpretación más precisa de los prompts, con texturas más ricas y detalles más coherentes en manos, cuerpos y objetos. Las imágenes generadas son más realistas y armoniosas, tanto con texto como con imágenes como entrada.

    2. Personalización y modo "Draft"
      El modelo incluye por defecto la opción de personalización, que puede activarse en 5 minutos y permite adaptar las respuestas del modelo al estilo del usuario. Además, estrena el modo Draft, que genera imágenes a 10x velocidad y a mitad de coste, ideal para iterar ideas con comandos de voz o texto en un flujo rápido y conversacional.

    3. Nuevas funciones y hoja de ruta activa
      Aunque algunas funciones como el upscaling o editing aún dependen de V6, se irán integrando en V7 con actualizaciones cada una o dos semanas. Se esperan próximamente referencias de personajes y objetos, así como mejoras continuas en rendimiento y herramientas como moodboards y SREF.

Robots

Physical Intelligence avanza hacia una IA universal para robots con su modelo multimodal en AgiBot

  • La startup de San Francisco Physical Intelligence (Pi) ha demostrado su modelo de acción visión-lenguaje (VLA) en el robot humanoide AgiBot, desarrollado en China. Con una sola IA, el robot ejecuta múltiples tareas usando diferentes tipos de manos robóticas, adaptándose en tiempo real al entorno y a las instrucciones.

  • Este avance refleja un cambio de paradigma en robótica: pasar de sistemas especializados a modelos generalistas que pueden escalar entre tareas y plataformas físicas. La combinación de lenguaje, visión y acción en un único sistema aumenta la autonomía y aplicabilidad de los robots en el mundo real, acercando la promesa de un “modelo único para todos los robots y tareas”.

Dex5

  • La compañía china Unitree lanzó una nueva mano humanoide llamada "Dex5",

  • Cada mano, que pesa 1 kg, viene con 20 DOF, todas las juntas permiten un control de fuerza suave, los forrajes pueden ser reemplazados, disponibles con 94 sensores táctiles (opcionales)

FlashBot Arm

  • Otra compañía china, Pudu Robotics, reveló el robot semi-humanoide “FlashBot Arm” con capacidad de elevación de 40 kg y 7 brazos DOF.

  • Está dirigido a casos de uso centrados en el servicio, como la manipulación de objetos y la entrega.

Reflexiones Finales

ChatGPT no escribe palabra a palabra