- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #47
Boletín Semanal Best-IA #47
Aprende IA, día a día.
Tutoriales
TUTORIAL STABLE DIFFUSION 3 MEDIUM Desde CERO 🚀(Colab Incluido)
Genera vídeos cortos coherentes con IA
ToonCrafter es una herramienta de IA disponible gratuitamente en Hugging Face, que permite a los usuarios generar vídeos cortos coherentes a partir de sólo dos imágenes de fotogramas clave.
Paso a paso:
Visita la página de ToonCrafter en Huggin Face.
Sube dos imágenes de fotogramas clave (una inicial y otra final). Para obtener mejores resultados, estas imágenes deben ser del mismo personaje o escena con ligeras variaciones.
Describa la acción en el campo “prompts”.
Ajusta la configuración a tu gusto y haz clic en "Generar" para crear tu vídeo.
Noticias
Apple WWDC 2024
La Conferencia Mundial de Desarrolladores de Apple (WWDC) 2024 trajo consigo una serie de emocionantes novedades que impactarán el sector tecnológico. A continuación, presentamos un resumen detallado de las noticias más relevantes:
Apple Intelligence: Nueva función en versión beta
Una de las grandes revelaciones fue Apple Intelligence, una nueva función que llegará en inglés a Estados Unidos como una versión beta con iOS 18 y iPadOS 18. Se espera que esta característica se expanda a otros idiomas y regiones en el futuro, ofreciendo a los usuarios una mayor interacción y comunicación.
Alianza estratégica con OpenAI
Apple también resaltó una alianza estratégica con OpenAI, lo que sugiere un enfoque en colaboraciones para potenciar las capacidades de inteligencia artificial de la compañía. Esta asociación promete innovaciones futuras y un mayor desarrollo en este campo.
Integración de iPhone con ChatGPT
La integración de iPhone con ChatGPT fue otro anuncio destacado en la WWDC 2024. Esta colaboración representa un avance significativo en la interacción y comunicación para los usuarios de dispositivos Apple, brindando nuevas posibilidades de uso y personalización.
Actualizaciones en sistemas operativos
Además de las novedades anteriores, se anunciaron actualizaciones y características para el nuevo sistema operativo Sequoia, iOS 18, iPadOS 18, Vision OS y Siri, que se irán implementando a lo largo del tiempo. Estas mejoras buscan ofrecer a los usuarios una experiencia más avanzada y completa en sus dispositivos Apple, manteniéndolos a la vanguardia de la tecnología.
Apple ha recuperado su título de empresa más valiosa del mundo, superando a Microsoft, tras la presentación de su conjunto de funciones de inteligencia artificial en la WWDC. El precio de las acciones de la empresa sigue subiendo, y la capitalización bursátil de Apple supera ahora a la de Microsoft.
Together AI presenta MoA (Mixture of Agents)
Together AI ha presentado MoA, un enfoque que aprovecha las fortalezas colectivas de diferentes LLMs para mejorar la calidad de la respuesta.
MoA utiliza una arquitectura donde cada capa incluye varios agentes LLM que refinan respuestas utilizando las salidas de la capa anterior, integrando capacidades diversas para un modelo más robusto.
Together MoA, compuesto por modelos open source, logró un 65.1% en AlpacaEval 2.0, superando al líder anterior, GPT-4o, que obtuvo un 57.5%. Esta mejora destaca la efectividad de la colaboración entre modelos.
Los modelos proponentes generan respuestas iniciales que los agregadores sintetizan en respuestas de alta calidad. Este proceso iterativo mejora significativamente las respuestas finales.
Together MoA establece un nuevo estándar en colaboración entre modelos LLM, demostrando que la inteligencia colectiva puede superar a modelos propietarios. Su enfoque de código abierto fomenta la investigación y aplicación en tareas complejas, destacando su potencial para mejorar sistemas de IA en precisión y robustez.
Meta presenta VideoLLaMA 2
VideoLLama 2 es una serie de Modelos de Lenguaje de Video (Video-LLMs) diseñados para mejorar el modelado espacial-temporal y la comprensión de audio en tareas orientadas a video y audio.
VideoLLaMA 2 incorpora un Conector de Convolución Espacial-Temporal (STC) a medida, que captura efectivamente las dinámicas espaciales y temporales intrincadas de los datos de video.
El modelo integra una Rama de Audio a través de entrenamiento conjunto, enriqueciendo sus capacidades de comprensión multimodal al incorporar de manera fluida las señales de audio.
Evaluaciones exhaustivas en tareas de respuesta a preguntas en video de opción múltiple (MC-VQA), respuesta a preguntas abiertas en video (OE-VQA) y subtitulado de video (VC) demuestran que VideoLLaMA 2 logra resultados competitivos entre modelos de código abierto y se acerca a algunos modelos propietarios en varios benchmarks.
VideoLLaMA 2 establece un nuevo estándar en la comprensión multimodal, mejorando significativamente en benchmarks de preguntas y respuestas solo de audio y de audio-video. Estos avances subrayan su superior rendimiento en análisis de video inteligente, facilitando además la investigación futura al ser modelos públicos.
Google presenta sus Avances en Salud Personal con IA
Google acaba de presentar presentar un LLM novedoso, diseñado para comprender y razonar sobre preguntas y datos de salud personal. El modelo pretende proporcionar recomendaciones personalizadas basadas en datos fisiológicos obtenidos de dispositivos móviles y portátiles.
PH-LLM obtuvo un 79% en exámenes de medicina del sueño y un 88% en certificaciones de fitness, superando los puntajes promedio de expertos humanos (76% y 71%, respectivamente).
Aunque el agente se centra en datos de sueño y fitness, su marco puede extenderse para analizar una gama más amplia de información de salud, incluyendo registros médicos y datos de nutrición.
La investigación muestra avances significativos en la personalización de la salud mediante IA. Los modelos y agentes desarrollados tienen el potencial de proporcionar recomendaciones precisas y personalizadas, basadas en datos fisiológicos detallados, contribuyendo a mejorar la salud y bienestar personal.
LINK: https://research.google/blog/advancing-personal-health-and-wellness-insights-with-ai/
Stability AI lanza Stable Diffusion 3 Medium, su Modelo de Generación de Texto a Imagen Más Sofisticado
Stability AI ha lanzado Stable Diffusion 3 Medium, su modelo de generación de imágenes de texto a imagen más avanzado hasta la fecha, con dos mil millones de parámetros.
Con un tamaño más pequeño, Stable Diffusion 3 Medium es ideal para ejecutarse en PCs y laptops de consumidores, así como en GPUs de nivel empresarial, haciéndolo perfecto para convertirse en el nuevo estándar en modelos de texto a imagen.
Este modelo ofrece fotorealismo avanzado, comprensión de prompts complejos y generación de texto sin errores. Además, es eficiente en recursos, lo que permite su uso en GPUs estándar sin degradación del rendimiento.
Desarrollado en colaboración con NVIDIA y AMD, el modelo está optimizado para un rendimiento superior en diversas plataformas.
Disponible bajo una licencia de investigación no comercial, y una licencia de creador para usos comerciales.
Junto con la versión abierta, Stable Diffusion 3 Medium está disponible a través de su API impulsada por Fireworks AI.
Esta nueva versión representa un hito importante en la evolución de la IA generativa y mantiene el compromiso de Stability de democratizar esta potente tecnología.
Leonardo AI lanza su nuevo modelo fundacional “Leonardo Phoenix”
Leonardo Phoenix es nuestro nuevo modelo fundacional que está estableciendo un nuevo estándar en la adherencia a prompts. Aunque no está completamente finalizado, esta versión preliminar ya está disponible en la plataforma y promete una experiencia mejorada.
Adherencia a Indicaciones: Ofrece una adherencia excepcional a las indicaciones dadas.
Texto Coherente en Imágenes: Genera texto claro y preciso dentro de las imágenes.
Innovación en IA: Nuevas capacidades en la generación de imágenes por IA.
Mayor Control Creativo: Integración de mejora y edición de indicaciones.
Notas Importantes: Algunas características aún no están disponibles, pero lo estarán pronto
Para acceder a Phoenix, abre la herramienta Image Gen V2 y navega al menú de presets. Selecciona el preset Leonardo Phoenix. Nota el feature Prompt Enhance en el menú izquierdo para mejorar tu prompt si es menor a 200 caracteres. Además, observa el nuevo icono del editor histórico de indicaciones a la izquierda de tus prompts bajo la barra de entrada.
We're incredibly excited to announce Phoenix, our own foundational model now in preview for ALL users.
👉 Prompt adherence ^ n
Experience exceptional prompt adherence - and it's only getting better from here.👉 Coherent text in image
Generates clear, accurate text within… x.com/i/web/status/1…— Leonardo.Ai (@LeonardoAi_)
4:06 PM • Jun 12, 2024
LINK: https://leonardo.ai/
Luma AI lanza Dream Machine
Dream Machine es un modelo de vídeo de nueva generación para crear tomas realistas y de alta calidad a partir de instrucciones de texto e imágenes mediante IA.
Se trata de un modelo de transformer altamente escalable y eficiente, entrenado directamente en videos, lo que lo hace capaz de generar tomas físicamente precisas, consistentes y llenas de eventos.
Entiende cómo las personas, animales y objetos interactúan con el mundo físico, lo que permite crear videos con una consistencia de personajes y física precisa.
Permite experimentar con una variedad infinita de movimientos de cámara fluidos, cinematográficos y naturales que se adaptan al contenido y la emoción de la escena.
Puede generar 120 frames en 120 segundos, lo que facilita la iteración y la exploración de ideas.
Puede generar tomas de 5 segundos con movimiento suave, cinematografía y drama, convirtiendo instantáneas en historias.
Here's a monster thread of my Dream Machine Creations with Luma AI's latest SOTA video model (FREE to use!):
— Kiri (@Kyrannio)
4:43 PM • Jun 12, 2024
PRUÉBALO GRATIS: https://lumalabs.ai/dream-machine
Google Deepmind y la Universidad de Harvard construyen un "roedor virtual" impulsado por IA para ayudarnos a comprender mejor cómo el cerebro controla el movimiento
Metodología Aplicada
Construcción del Roedor Virtual: Creación de un modelo biomecánicamente realista de una rata, actuado por una red neuronal artificial.
Simulador de Física: Uso de un simulador de física para integrar el modelo del roedor virtual.
Entrenamiento con Aprendizaje por Refuerzo Profundo: Aplicación de técnicas de aprendizaje por refuerzo profundo para entrenar al roedor virtual a imitar comportamientos de ratas reales.
Comparación de Actividades Neurales: Comparación de la actividad neural registrada en ratas reales con la actividad de la red neuronal del roedor virtual.
Resultados y Hallazgos
Predicción de la Actividad Neural: La actividad neural en el estriado sensoriomotor y la corteza motora de ratas reales fue mejor predicha por la actividad de la red del roedor virtual que por las características del movimiento de las ratas reales.
Dinámica Inversa: Resultados consistentes con la implementación del principio de dinámica inversa tanto en el estriado sensoriomotor como en la corteza motora.
Variabilidad Neural: La variabilidad latente de la red predijo la estructura de la variabilidad neural a través de diferentes comportamientos, apoyando el principio de intervención mínima en el control óptimo del comportamiento.
Estos hallazgos demuestran el valor de las simulaciones físicas de animales virtuales biomecánicamente realistas para interpretar la estructura de la actividad neural y relacionarla con principios teóricos del control motor.
Apparate Labs presenta Proteus 0.1, generación de vídeo en TIEMPO REAL que da vida a tu IA
A partir de una sola imagen, Proteus puede reír, rapear, cantar, parpadear, sonreír, hablar y mucho más.
Puedes inscribirte en la lista de espera de la API en https://apparate.ai/early-access.html
Introducing Proteus 0.1, REAL-TIME video generation that brings life to your AI.
Proteus can laugh, rap, sing, blink, smile, talk, and more. From a single image!
Come meet Proteus on Twitch in real-time. ↓
Sign up for API waitlist: apparate.ai/early-access.h…
1/11— Apparate Labs (@apparatelabs)
4:07 PM • Jun 13, 2024
Suno lanza su función de extensión de audio
Todos los usuarios de Suno Pro y Premier pueden ahora subir o grabar sus propios audios para crear canciones.
OpenAI nombra miembro de su consejo a Paul Nakasone, antiguo jefe de la NSA
Nakasone, que dirigió la NSA de 2018 a 2023, se unirá al Comité de Seguridad y Protección de OpenAI, y "también contribuirá a los esfuerzos de OpenAI por comprender mejor cómo puede utilizarse la IA para reforzar la ciberseguridad detectando y respondiendo rápidamente a las amenazas".
FUENTE: https://www.theverge.com/2024/6/13/24178079/openai-board-paul-nakasone-nsa-safety
Robots
HumanPlus
Stanford AI Lab presentó HumanPlus, un sistema que permite a robots humanoides aprender y realizar tareas de forma autónoma imitando acciones humanas.
Reflexiones Finales
Avital Balwit, Anthropic: "En 3 años puede que ya NO trabaje"
Advertencia de Elon Musk contra ChatGPT: Una IA entrenada para mentir es extremadamente peligrosa
Elon Musk's warning against ChatGPT: An AI trained to lie is extremely dangerous.
— ELON DOCS (@elon_docs)
9:33 PM • Jun 10, 2024