Boletín Semanal Best-IA #35

Aprende IA, día a día.

Tutoriales

Microsoft Copilot Studio: Tutorial Completo en Español

Construye cualquier cosa con agentes de IA

Google ha integrado la IA en Slides

  • Ahora puedes generar diapositivas, imágenes y texto para tus presentaciones.

  • Esta integración con Gemini está disponible de forma nativa sin necesidad de instalar nada.

  • Aquí tienes cómo utilizarla.

De melodías sencillas a armonías complejas: Generación musical por IA

  • Sumérgete en el mundo de la música generada por IA con el vanguardista Anticipatory Music Transformer de la Universidad de Stanford.

  • Tanto si eres un músico experimentado como un curioso entusiasta de la tecnología, este vídeo te guiará a través del fascinante proceso de creación musical con IA, desde melodías básicas hasta complejas composiciones multipista en formato MIDI.

  • Descubre cómo la IA puede predecir la siguiente nota, mejorar tu música con múltiples instrumentos e incluso ampliar tus pistas más allá de lo imaginable. No te pierdas esta revolución musical.

Noticias

NVIDIA GTC 24. Jensen Huang presenta NVIDIA Blackwell, los microservicios NIM, las API de Omniverse Cloud y más.

Neuralink muestra en directo al primer usuario de su implante cerebral jugando al ajedrez con la mente

AutoDev de Microsoft, un nuevo competidor para Devin

  • AutoDev es un nuevo marco de desarrollo de software basado en IA, diseñado por Microsoft para la planificación y ejecución autónomas de tareas de ingeniería de software.

  • PAPER: https://arxiv.org/pdf/2403.08299.pdf

Open-Sora: Alternativa de código abierto a Sora - Modelo de IA de texto a vídeo

  • Open-Sora es una iniciativa dedicada a producir eficazmente vídeo de alta calidad y poner el modelo, las herramientas y los contenidos al alcance de todos. Al adoptar los principios del código abierto, Open-Sora no sólo democratiza el acceso a técnicas avanzadas de generación de vídeo, sino que también ofrece una plataforma ágil y fácil de usar que simplifica las complejidades de la producción de vídeo.

  • GITHUB REPO: https://github.com/hpcaitech/Open-Sora

Quiet-STaR: Los Modelos de Lenguaje Pueden Enseñarse a Sí Mismos a Pensar Antes de Hablar

  • El equipo de investigadores de la Universidad de Stanford y Notbad AI Inc. ha colaborado para desarrollar Quiet-STaR, un marco de trabajo para modelos de lenguaje que se centra en la capacidad de generar razonamientos internos antes de la producción de texto, lo que mejora notablemente la capacidad predictiva y la coherencia en la generación de lenguaje.

  • Quiet-STaR genera racionalizaciones internas en cada token durante la generación de texto. Esto significa que el modelo no solo predice el siguiente token, sino que también crea una justificación o razonamiento para cada elección que hace, lo que potencialmente mejora la calidad y coherencia de los textos generados.

  • El framework implementa un algoritmo de muestreo paralelo de tokens, que permite procesar múltiples tokens simultáneamente, mejorando la eficiencia computacional. Además, emplea una técnica de enseñanza forzada extendida, que ayuda al modelo a superar la fase inicial de desconocimiento en la generación de pensamientos internos y refuerza sus habilidades predictivas.

  • Quiet-STaR aborda de manera efectiva los retos asociados con el alto costo computacional inherente a sus procesos avanzados. Esto implica una optimización en el uso de recursos computacionales, lo que hace al modelo más viable para aplicaciones prácticas a gran escala.

  • El modelo muestra mejoras significativas en el aprendizaje cero-ejemplos, demostrando una robusta capacidad para generalizar y aplicar sus habilidades de razonamiento a nuevas tareas sin necesidad de ajustes específicos para cada tarea. Esto es evidente en su rendimiento en benchmarks como GSM8K y CommonsenseQA, donde Quiet-STaR logra un desempeño destacado sin entrenamiento específico para esas tareas.

  • PAPER: https://arxiv.org/pdf/2403.09629.pdf

VLOGGER de Google da vida a los avatares

  • Los investigadores de Google acaban de desarrollar VLOGGER, un nuevo modelo de IA capaz de generar vídeos fotorrealistas de avatares parlantes con movimiento completo de la parte superior del cuerpo a partir de una imagen fija y un clip de audio.

  • Entre sus posibles aplicaciones están el doblaje de vídeos a otros idiomas, la creación de avatares realistas para juegos o asistentes y la posibilidad de chats de vídeo con poco ancho de banda.

  • PAPER: https://arxiv.org/pdf/2403.08764.pdf

Apple presenta sus modelos MM1

  • Los investigadores de Apple acaban de publicar un nuevo paper en el que presentan MM1, una familia de modelos de IA multimodal que combinan la comprensión visual y lingüística para ofrecer capacidades avanzadas.

  • Las pruebas de MM1 compiten con modelos multimodales de última generación como GPT-4V y Gemini Pro.

Magnific lanza Style Transfer

  • Magnific ya no es sólo un reescalador de imágenes, ahora puede reimaginarse completamente a un estilo diferente. Aquí tienes 10 ejemplos impresionantes.

  • LINK: https://magnific.ai/

Robots

GR00T, la nueva iniciativa de Nvidia para crear un modelo fundacional de uso general para el aprendizaje de robots humanoides

  • El modelo GR00T permitirá que un robot comprenda instrucciones multimodales, como lenguaje, vídeo y demostración, y realice diversas tareas útiles.

  • GR00T está colaborando con muchas empresas líderes en humanoides de todo el mundo, para que el modelo pueda transferirse entre encarnaciones y ayudar a que el ecosistema prospere.

  • Utilizando la tecnología de NVIDIA, GR00T se desarrolla en Isaac Lab, se entrena con OSMO y se implementa a través de Jetson Thor, garantizando un rendimiento avanzado y eficiente.

  • LINK: https://nvidianews.nvidia.com/news/foundation-model-isaac-robotics-platform

Nueva actualización de 1X

Reflexiones Finales

Sam Altman: OpenAI, GPT-5, Sora, Board Saga, Elon Musk, Ilya, Power & AGI

xxx