Boletín Semanal Best-IA #47

Aprende IA, día a día.

Tutoriales

TUTORIAL STABLE DIFFUSION 3 MEDIUM Desde CERO 🚀(Colab Incluido)

Genera vídeos cortos coherentes con IA

  • ToonCrafter es una herramienta de IA disponible gratuitamente en Hugging Face, que permite a los usuarios generar vídeos cortos coherentes a partir de sólo dos imágenes de fotogramas clave.

  • Paso a paso:

    1. Visita la página de ToonCrafter en Huggin Face.

    2. Sube dos imágenes de fotogramas clave (una inicial y otra final). Para obtener mejores resultados, estas imágenes deben ser del mismo personaje o escena con ligeras variaciones.

    3. Describa la acción en el campo “prompts”.

    4. Ajusta la configuración a tu gusto y haz clic en "Generar" para crear tu vídeo.

Noticias

Apple WWDC 2024

  • La Conferencia Mundial de Desarrolladores de Apple (WWDC) 2024 trajo consigo una serie de emocionantes novedades que impactarán el sector tecnológico. A continuación, presentamos un resumen detallado de las noticias más relevantes:

  • Apple Intelligence: Nueva función en versión beta

    • Una de las grandes revelaciones fue Apple Intelligence, una nueva función que llegará en inglés a Estados Unidos como una versión beta con iOS 18 y iPadOS 18. Se espera que esta característica se expanda a otros idiomas y regiones en el futuro, ofreciendo a los usuarios una mayor interacción y comunicación.

  • Alianza estratégica con OpenAI

    • Apple también resaltó una alianza estratégica con OpenAI, lo que sugiere un enfoque en colaboraciones para potenciar las capacidades de inteligencia artificial de la compañía. Esta asociación promete innovaciones futuras y un mayor desarrollo en este campo.

  • Integración de iPhone con ChatGPT

    • La integración de iPhone con ChatGPT fue otro anuncio destacado en la WWDC 2024. Esta colaboración representa un avance significativo en la interacción y comunicación para los usuarios de dispositivos Apple, brindando nuevas posibilidades de uso y personalización.

  • Actualizaciones en sistemas operativos

    • Además de las novedades anteriores, se anunciaron actualizaciones y características para el nuevo sistema operativo Sequoia, iOS 18, iPadOS 18, Vision OS y Siri, que se irán implementando a lo largo del tiempo. Estas mejoras buscan ofrecer a los usuarios una experiencia más avanzada y completa en sus dispositivos Apple, manteniéndolos a la vanguardia de la tecnología.

  • Apple ha recuperado su título de empresa más valiosa del mundo, superando a Microsoft, tras la presentación de su conjunto de funciones de inteligencia artificial en la WWDC. El precio de las acciones de la empresa sigue subiendo, y la capitalización bursátil de Apple supera ahora a la de Microsoft.

Together AI presenta MoA (Mixture of Agents)

  • Together AI ha presentado MoA, un enfoque que aprovecha las fortalezas colectivas de diferentes LLMs para mejorar la calidad de la respuesta.

  • MoA utiliza una arquitectura donde cada capa incluye varios agentes LLM que refinan respuestas utilizando las salidas de la capa anterior, integrando capacidades diversas para un modelo más robusto.

  • Together MoA, compuesto por modelos open source, logró un 65.1% en AlpacaEval 2.0, superando al líder anterior, GPT-4o, que obtuvo un 57.5%. Esta mejora destaca la efectividad de la colaboración entre modelos.

  • Los modelos proponentes generan respuestas iniciales que los agregadores sintetizan en respuestas de alta calidad. Este proceso iterativo mejora significativamente las respuestas finales.

  • Together MoA establece un nuevo estándar en colaboración entre modelos LLM, demostrando que la inteligencia colectiva puede superar a modelos propietarios. Su enfoque de código abierto fomenta la investigación y aplicación en tareas complejas, destacando su potencial para mejorar sistemas de IA en precisión y robustez.

  • PAPER: https://arxiv.org/abs/2406.04692

  • LINK: https://www.together.ai/blog/together-moa

Meta presenta VideoLLaMA 2

  • VideoLLama 2 es una serie de Modelos de Lenguaje de Video (Video-LLMs) diseñados para mejorar el modelado espacial-temporal y la comprensión de audio en tareas orientadas a video y audio.

  • VideoLLaMA 2 incorpora un Conector de Convolución Espacial-Temporal (STC) a medida, que captura efectivamente las dinámicas espaciales y temporales intrincadas de los datos de video.

  • El modelo integra una Rama de Audio a través de entrenamiento conjunto, enriqueciendo sus capacidades de comprensión multimodal al incorporar de manera fluida las señales de audio.

  • Evaluaciones exhaustivas en tareas de respuesta a preguntas en video de opción múltiple (MC-VQA), respuesta a preguntas abiertas en video (OE-VQA) y subtitulado de video (VC) demuestran que VideoLLaMA 2 logra resultados competitivos entre modelos de código abierto y se acerca a algunos modelos propietarios en varios benchmarks.

  • VideoLLaMA 2 establece un nuevo estándar en la comprensión multimodal, mejorando significativamente en benchmarks de preguntas y respuestas solo de audio y de audio-video. Estos avances subrayan su superior rendimiento en análisis de video inteligente, facilitando además la investigación futura al ser modelos públicos.

  • PAPER: https://arxiv.org/pdf/2406.07476

Google presenta sus Avances en Salud Personal con IA

  • Google acaba de presentar presentar un LLM novedoso, diseñado para comprender y razonar sobre preguntas y datos de salud personal. El modelo pretende proporcionar recomendaciones personalizadas basadas en datos fisiológicos obtenidos de dispositivos móviles y portátiles.

  • PH-LLM obtuvo un 79% en exámenes de medicina del sueño y un 88% en certificaciones de fitness, superando los puntajes promedio de expertos humanos (76% y 71%, respectivamente).

  • Aunque el agente se centra en datos de sueño y fitness, su marco puede extenderse para analizar una gama más amplia de información de salud, incluyendo registros médicos y datos de nutrición.

  • La investigación muestra avances significativos en la personalización de la salud mediante IA. Los modelos y agentes desarrollados tienen el potencial de proporcionar recomendaciones precisas y personalizadas, basadas en datos fisiológicos detallados, contribuyendo a mejorar la salud y bienestar personal.

  • LINK: https://research.google/blog/advancing-personal-health-and-wellness-insights-with-ai/

Stability AI lanza Stable Diffusion 3 Medium, su Modelo de Generación de Texto a Imagen Más Sofisticado

  • Stability AI ha lanzado Stable Diffusion 3 Medium, su modelo de generación de imágenes de texto a imagen más avanzado hasta la fecha, con dos mil millones de parámetros.

  • Con un tamaño más pequeño, Stable Diffusion 3 Medium es ideal para ejecutarse en PCs y laptops de consumidores, así como en GPUs de nivel empresarial, haciéndolo perfecto para convertirse en el nuevo estándar en modelos de texto a imagen.

  • Este modelo ofrece fotorealismo avanzado, comprensión de prompts complejos y generación de texto sin errores. Además, es eficiente en recursos, lo que permite su uso en GPUs estándar sin degradación del rendimiento.

  • Desarrollado en colaboración con NVIDIA y AMD, el modelo está optimizado para un rendimiento superior en diversas plataformas.

  • Disponible bajo una licencia de investigación no comercial, y una licencia de creador para usos comerciales.

  • Junto con la versión abierta, Stable Diffusion 3 Medium está disponible a través de su API impulsada por Fireworks AI.

  • Esta nueva versión representa un hito importante en la evolución de la IA generativa y mantiene el compromiso de Stability de democratizar esta potente tecnología.

  • LINK: https://stability.ai/news/stable-diffusion-3-medium 

Leonardo AI lanza su nuevo modelo fundacional “Leonardo Phoenix”

  • Leonardo Phoenix es nuestro nuevo modelo fundacional que está estableciendo un nuevo estándar en la adherencia a prompts. Aunque no está completamente finalizado, esta versión preliminar ya está disponible en la plataforma y promete una experiencia mejorada.

  • Adherencia a Indicaciones: Ofrece una adherencia excepcional a las indicaciones dadas.

  • Texto Coherente en Imágenes: Genera texto claro y preciso dentro de las imágenes.

  • Innovación en IA: Nuevas capacidades en la generación de imágenes por IA.

  • Mayor Control Creativo: Integración de mejora y edición de indicaciones.

  • Notas Importantes: Algunas características aún no están disponibles, pero lo estarán pronto

  • Para acceder a Phoenix, abre la herramienta Image Gen V2 y navega al menú de presets. Selecciona el preset Leonardo Phoenix. Nota el feature Prompt Enhance en el menú izquierdo para mejorar tu prompt si es menor a 200 caracteres. Además, observa el nuevo icono del editor histórico de indicaciones a la izquierda de tus prompts bajo la barra de entrada.

Luma AI lanza Dream Machine

  • Dream Machine es un modelo de vídeo de nueva generación para crear tomas realistas y de alta calidad a partir de instrucciones de texto e imágenes mediante IA.

  • Se trata de un modelo de transformer altamente escalable y eficiente, entrenado directamente en videos, lo que lo hace capaz de generar tomas físicamente precisas, consistentes y llenas de eventos.

  • Entiende cómo las personas, animales y objetos interactúan con el mundo físico, lo que permite crear videos con una consistencia de personajes y física precisa.

  • Permite experimentar con una variedad infinita de movimientos de cámara fluidos, cinematográficos y naturales que se adaptan al contenido y la emoción de la escena.

  • Puede generar 120 frames en 120 segundos, lo que facilita la iteración y la exploración de ideas.

  • Puede generar tomas de 5 segundos con movimiento suave, cinematografía y drama, convirtiendo instantáneas en historias.

Google Deepmind y la Universidad de Harvard construyen un "roedor virtual" impulsado por IA para ayudarnos a comprender mejor cómo el cerebro controla el movimiento

  • Metodología Aplicada

    1. Construcción del Roedor Virtual: Creación de un modelo biomecánicamente realista de una rata, actuado por una red neuronal artificial.

    2. Simulador de Física: Uso de un simulador de física para integrar el modelo del roedor virtual.

    3. Entrenamiento con Aprendizaje por Refuerzo Profundo: Aplicación de técnicas de aprendizaje por refuerzo profundo para entrenar al roedor virtual a imitar comportamientos de ratas reales.

    4. Comparación de Actividades Neurales: Comparación de la actividad neural registrada en ratas reales con la actividad de la red neuronal del roedor virtual.

  • Resultados y Hallazgos

    1. Predicción de la Actividad Neural: La actividad neural en el estriado sensoriomotor y la corteza motora de ratas reales fue mejor predicha por la actividad de la red del roedor virtual que por las características del movimiento de las ratas reales.

    2. Dinámica Inversa: Resultados consistentes con la implementación del principio de dinámica inversa tanto en el estriado sensoriomotor como en la corteza motora.

    3. Variabilidad Neural: La variabilidad latente de la red predijo la estructura de la variabilidad neural a través de diferentes comportamientos, apoyando el principio de intervención mínima en el control óptimo del comportamiento.

  • Estos hallazgos demuestran el valor de las simulaciones físicas de animales virtuales biomecánicamente realistas para interpretar la estructura de la actividad neural y relacionarla con principios teóricos del control motor.

  • PAPER: https://www.nature.com/articles/s41586-024-07633-4

Apparate Labs presenta Proteus 0.1, generación de vídeo en TIEMPO REAL que da vida a tu IA

  • A partir de una sola imagen, Proteus puede reír, rapear, cantar, parpadear, sonreír, hablar y mucho más.

  • Puedes inscribirte en la lista de espera de la API en https://apparate.ai/early-access.html

Suno lanza su función de extensión de audio

  • Todos los usuarios de Suno Pro y Premier pueden ahora subir o grabar sus propios audios para crear canciones.

OpenAI nombra miembro de su consejo a Paul Nakasone, antiguo jefe de la NSA

Robots

HumanPlus

  • Stanford AI Lab presentó HumanPlus, un sistema que permite a robots humanoides aprender y realizar tareas de forma autónoma imitando acciones humanas.

Reflexiones Finales

Avital Balwit, Anthropic: "En 3 años puede que ya NO trabaje"

Advertencia de Elon Musk contra ChatGPT: Una IA entrenada para mentir es extremadamente peligrosa