Boletín Semanal Best-IA #75

Aprende Ia, día día.

Tutoriales

ChatGPT Tasks

  • OpenAI acaba de lanzar ChatGPT, Tasks, la nueva actualización de ChatGPT que nos permite configurar recordatorios y tareas que se ejecuten periódicamente.

Tutorial Kokoro-82M TTS - Modelo de Voz IA Revolucionario

  • Kokoro es un modelo Text-To-Speech de frontera con un tamaño de sólo 82 millones de parámetros (entrada de texto/salida de audio).

  • En las semanas previas a su lanzamiento, Kokoro v0.19 fue el modelo número en el ranking de TTS Spaces Arena, utilizando menos parámetros y menos datos.

Curso gratuito sobre agentes de Hugging Face

Noticias

Transformer²: Modelos de IA que Aprenden en Tiempo Real

  • Los modelos de IA actuales, como los Transformers tradicionales, no pueden modificar sus propios pesos tras el entrenamiento, lo que limita su capacidad de adaptación. Transformer² introduce un enfoque revolucionario al permitir que los modelos ajusten dinámicamente sus pesos durante la inferencia, optimizando su desempeño sin necesidad de reentrenamiento constante.

  • 🔹 Tres Claves de Transformer²:

    • 1️⃣ Adaptación Dinámica: En un primer pase, el modelo identifica la naturaleza de la tarea (matemáticas, código, lenguaje, etc.). En un segundo pase, ajusta sus propios pesos para mejorar su rendimiento en esa tarea específica.

    • 2️⃣ Singular Value Finetuning (SVF): Mediante descomposición de valores singulares (SVD), Transformer² decide qué partes de su red neuronal activar o suprimir, optimizando la eficiencia computacional.

    • 3️⃣ Métodos de Adaptación: Utiliza prompts, clasificadores y pruebas Few-Shot para determinar la mejor configuración de pesos en tiempo real, combinando diferentes tipos de conocimiento cuando es necesario.

  • Transformer² desafía la idea de que los modelos de IA son estáticos. Con su capacidad de adaptación en tiempo real, allana el camino hacia una IA más eficiente y versátil. Esto podría revolucionar aplicaciones como asistentes inteligentes, investigación científica y robótica, acercándonos a sistemas de IA que aprenden y evolucionan sin necesidad de constante supervisión humana.

  • PAPER: https://arxiv.org/abs/2501.06252

  • LINK: https://sakana.ai/transformer-squared/

TITANS: IA con Memoria a Largo Plazo

  • Los modelos TITANS, desarrollados por Google Research, buscan superar una de las principales limitaciones de los Transformers tradicionales: su incapacidad para manejar contextos extremadamente largos debido a los costos computacionales cuadráticos del mecanismo de atención. TITANS introduce una memoria neuronal que permite recordar información relevante durante la inferencia, optimizando el rendimiento sin depender únicamente del entrenamiento previo.

  • 🔹 Tres Claves de TITANS:

    • 1️⃣ Memoria Modular: TITANS divide su memoria en tres tipos:

      • Memoria de corto plazo (Core Memory): Equivalente a la memoria de trabajo humana, usada para tareas inmediatas.

      • Memoria de largo plazo: Almacena información clave sin sobrecargar el sistema.

      • Memoria persistente: Contiene conocimientos generales incorporados en el modelo.

    • 2️⃣ Mecanismo de Sorpresa: TITANS identifica eventos inesperados y los almacena en su memoria de largo plazo, similar a cómo recordamos experiencias inusuales en la vida real.

    • 3️⃣ Integración de Memoria: Utiliza tres enfoques para gestionar la información:

      • Memoria como contexto (Mac): Recupera información relevante cuando se necesita.

      • Memoria como puerta de control (Mag): Equilibra información actual y pasada.

      • Memoria en capas: Procesa la memoria en diferentes niveles para mayor eficiencia.

  • TITANS redefine la forma en que los modelos de IA manejan el contexto, superando las limitaciones de los Transformers tradicionales. Su capacidad para recordar información relevante a largo plazo tiene aplicaciones en biomedicina, análisis financiero, procesamiento de video e IA conversacional avanzada. Aunque su integración en sistemas comerciales aún plantea desafíos, su enfoque inspirado en la memoria humana representa un paso crucial hacia modelos de IA más inteligentes y adaptativos.

  • PAPER: https://arxiv.org/abs/2501.00663

Si combinamos Titans y Transformer², podríamos estar ante el nacimiento de una nueva generación de IA verdaderamente adaptable, con memoria a largo plazo y autoaprendizaje en tiempo real. Estos modelos serían mucho más cercanos a la inteligencia humana y superarían muchas de las limitaciones de los LLMs actuales.

Microsoft Copilot Chat: Productividad Empresarial con IA

  • Microsoft ha presentado Copilot Chat, un servicio que permite a las empresas desplegar agentes de IA para tareas como investigación de mercado y preparación de reuniones. Con tecnología basada en GPT-4 de OpenAI, esta herramienta admite múltiples idiomas.

  • 3 Claves de Copilot Chat

    •  Integración Total en Microsoft 365
      Copilot Chat se encuentra dentro de aplicaciones como Word, Excel, PowerPoint, Outlook y Teams, ofreciendo asistencia de IA directamente en el flujo de trabajo de los usuarios. Esto significa respuestas automáticas, resúmenes de correos y análisis de datos sin salir de las herramientas habituales.

    • Modelo de Pago Flexible
      Microsoft adopta un modelo pay-as-you-go, eliminando la necesidad de inversiones iniciales elevadas. Así, las empresas pueden implementar inteligencia artificial en sus procesos sin comprometer su presupuesto.

    • Automatización Inteligente
      Copilot Chat ayuda a supervisar correos electrónicos, analizar datos, automatizar tareas repetitivas y mejorar la colaboración, reduciendo la carga de trabajo y aumentando la eficiencia operativa.

  • Este movimiento de Microsoft no solo facilita la adopción de IA en las empresas, sino que redefine el estándar de productividad digital. Al integrar agentes inteligentes en herramientas ya ampliamente usadas, la IA deja de ser un extra y se convierte en parte esencial del trabajo diario, impulsando una nueva era de eficiencia y optimización.

Hailuo

MiniMax-01: Modelos Multimodales de 456B Parámetros y 4M Tokens de Contexto

  • Hailuo acaba de lanzar MiniMax-01, una serie de modelos de código abierto con características sorprendentes, incluyendo un contexto de 4 millones de tokens.

  • Lo que hace especial a MiniMax-01:

    • Memoria extrema: Gracias a su Lightning Attention, estos modelos procesan contextos gigantescos, superando por mucho a los líderes actuales.

    • Potencia bruta: Con 456 mil millones de parámetros, MiniMax-01 promete rendimiento de élite en tareas de lenguaje y multimodalidad.

    • Eficiencia y accesibilidad: Su modelo de precios es sorprendentemente asequible: $0.2 por millón de tokens de entrada y $1.1 por millón de tokens de salida, una oferta difícil de igualar.

  • El lanzamiento de MiniMax-01 refuerza la tendencia hacia IA de contexto extendido, ideal para agentes inteligentes con memoria a largo plazo y colaboración en entornos multi-agente. Con su código abierto y actualizaciones frecuentes, este modelo podría convertirse en una referencia para 2025.

  • Pruébalo en https://www.hailuo.ai/

  • GITHUB: https://t.co/l2Ut0ep54T 

  • PAPER: https://arxiv.org/abs/2501.08313

T2A-01-HD: Nuevo modelo de Texto a Audio con inteligencia emocional

  • T2A-01-HD es un modelo de Texto a Audio (T2A) que lleva la síntesis de voz a un nuevo nivel, con una personalización sin límites, inteligencia emocional avanzada y una autenticidad lingüística sin precedentes.

  • 3 Claves de T2A-01-HD

    • Personalización Total de Voz
      Este modelo permite clonar cualquier voz con solo 10 segundos de audio, manteniendo cada matiz y emoción original. También ofrece 300+ voces predefinidas en diferentes idiomas, edades y estilos. Además, permite ajustar tono, velocidad y emoción, con efectos profesionales como acústica de sala o filtros telefónicos para una calidad de estudio.

    • Inteligencia Emocional Sofisticada
      T2A-01-HD es el primer modelo que incorpora un sistema inteligente de emociones, capaz de detectar y replicar sutiles matices emocionales en el habla. Se puede elegir entre una detección automática o control manual para personalizar la expresividad con precisión.

    • Autenticidad Multilingüe
      Soporta 17+ idiomas, incluyendo variantes regionales para lograr acentos naturales. Desde inglés (EE.UU., Reino Unido, Australia, India) hasta chino (mandarín y cantonés), japonés, coreano, francés, alemán, español, portugués, árabe y más, el sistema garantiza fluidez y realismo, con una base de datos en constante crecimiento.

  • T2A-01-HD marca un antes y un después en la generación de voz sintética, abriendo nuevas posibilidades en narración de contenido, asistentes virtuales, accesibilidad, doblaje y producción de audio automatizada. Su capacidad para generar voces realistas y emocionales en múltiples idiomas pone la inteligencia artificial un paso más cerca de la comunicación natural y global.

xAI construye Colossus, la supercomputadora de IA más grande del mundo, en sólo 122 días

  • Colossus de xAI es la supercomputadora de IA refrigerada por líquido más grande del mundo y cuenta con más de 100.000 GPU NVIDIA HGX H100, exabytes de almacenamiento y redes récord.

  • La instalación con sede en Memphis pasó de estar vacía a estar operativa en solo 122 días, alimentando Grok de xAI con un ancho de banda de 3,6 Tbps por servidor y SuperNIC BlueField-3 de 400 Gbps.

  • Utilizando refrigeración líquida de próxima generación, conmutadores Ethernet de 800 Gb y una red de clúster dual para CPU y GPU, Colossus está redefiniendo la informática de IA a una escala nunca antes vista.

  • La era de la IA superalimentada ha comenzado oficialmente.

MatterGen: Revolución en el Diseño de Materiales con IA Generativa

  • El desarrollo de nuevos materiales es clave para la innovación tecnológica, desde baterías hasta imanes de alto rendimiento. Históricamente, este proceso ha sido lento y costoso, pero MatterGen, un modelo de IA generativa desarrollado por Microsoft Research, promete cambiar las reglas del juego.

  • Tres claves sobre MatterGen:

    • De la selección a la generación: En lugar de analizar bases de datos buscando materiales con ciertas propiedades, MatterGen genera directamente nuevas estructuras a partir de requisitos específicos, ampliando el espacio de posibilidades.

    • Arquitectura de difusión adaptada a materiales: Utiliza un modelo de difusión en 3D para diseñar estructuras estables y personalizables, superando los enfoques tradicionales y logrando un rendimiento superior en estabilidad y diversidad.

    • Validación experimental y código abierto: MatterGen ya ha sido probado con éxito en laboratorio, generando materiales reales como el compuesto TaCr₂O₆. Además, Microsoft ha liberado su código bajo licencia MIT, permitiendo a la comunidad científica explorar sus capacidades.

  • MatterGen no es solo una mejora en la ciencia de materiales, sino un cambio de paradigma. Por primera vez, una IA no solo ayuda en el diseño de materiales, sino que los crea desde cero y los optimiza mejor que los humanos.

  • LINK: https://www.microsoft.com/en-us/research/blog/mattergen-a-new-paradigm-of-materials-design-with-generative-ai/

Robots

Unitree G1 Bionic

  • Unitree actualiza su humanoide G1 Bionic con agilidad y estabilidad. Ahora puede moverse suavemente y correr en diversas superficies, incluidas pistas cuesta arriba y cuesta abajo, caminos pedregosos y escaleras.

Black Panther 2.0

  • Black Panther 2.0 es un perro robótico capaz de correr 100 metros en 10 segundos.

Reflexiones Finales

IMPACTO AGENTES.AI : Análisis del informe de World Economic Forum

Geoff Hinton advierte del peligro de dar más poder a los «AGENTES»

  • Dar a los agentes de IA la capacidad de crear submetas podría ayudarles a priorizar la obtención de un mayor control para la consecución de sus objetivos.

  • Una vez que superen la inteligencia humana, los humanos pueden llegar a ser irrelevantes, aunque tengan buenas intenciones