Best-IA Newsletter
Posts
Boletín Semanal Best-IA #37

Boletín Semanal Best-IA #37

Aprende IA, día a día.

Best-IA
8 de abril de 2024

Best-IA. ¡Aprende IA, día a día!

Tutoriales

Tutorial de Notebook LM: IA personalizada para construir tu "segundo cerebro"

LINK: https://notebooklm.google/

Replay: ¡La forma MÁS FÁCIL de crear covers de canciones con IA!

LINK 1: https://www.tryreplay.io/
LINK 2: https://www.suno.ai/

Noticias

Apple anuncia ReALM: un nuevo modelo de IA que podría hacer a Siri más rápida e inteligente

El equipo de investigación de Apple presentó ReALM (Reference Resolution As Language Modeling), un nuevo modelo de inteligencia artificial (IA) enfocado en mejorar la capacidad de los asistentes de voz para comprender y procesar peticiones ambiguas en función de diversos contextos.
ReALM podría hacer a Siri más inteligente a la hora de entender lo que hay en tu pantalla, incluso mejor que GPT-4, a pesar de ser un modelo mucho más liviano y rápido.
El propósito de ReALM es entregar mayor información y datos contextuales a otras herramientas automatizadas de asistencia como Siri. El algoritmo utiliza grandes modelos de lenguaje ajustados para resolver este tipo de referencias. Específicamente, puede analizar y comprender las el contenido que aparece en la pantalla de un dispositivo, los elementos de fondo y aspectos no conversacionales (lugares, objetos, eventos y conceptos). Identifica su ubicación y genera una representación de texto natural con base en el diseño visual. La información es procesada para ampliar los datos utilizados por los asistentes de voz para comprender solicitudes poco claras y ejecutar tareas específicas.
PAPER: https://arxiv.org/abs/2403.20329

ChatGPT

Ya puedes hacer Inpainting con DALL-E 3

Ahora DALL-E permite editar imágenes seleccionando un área de la imagen para editarla y describiendo los cambios en el chat. También puede proporcionar un prompt con la edición deseada en el panel de conversación, sin utilizar la herramienta de selección.
Puedes acceder a la interfaz del editor de DALL-E haciendo clic en una imagen generada por DALL-E.
Está disponible en la versión web, iOS y Android.
FUENTE: https://help.openai.com/en/articles/9055440-editing-your-images-with-dall-e

Nuevas mejoras y expansiones en la API de fine-tuning de OpenAI

OpenAI busca proporcionar a los desarrolladores más control sobre el proceso de ajuste fino y ofrecer nuevas maneras de construir modelos personalizados.
FUENTE: https://openai.com/blog/introducing-improvements-to-the-fine-tuning-api-and-expanding-our-custom-models-program

Ya puedes acceder a ChatGPT sin necesidad de crear una cuenta

FUENTE: https://openai.com/blog/start-using-chatgpt-instantly

Stability presenta Stable Audio 2.0

Stable Audio 2.0 establece un nuevo estándar en audio generado por IA, produciendo pistas completas de alta calidad con una estructura musical coherente de hasta tres minutos de duración a 44,1 kHz estéreo.
El nuevo modelo introduce la generación de audio a audio al permitir a los usuarios cargar y transformar muestras mediante indicaciones en lenguaje natural.
LINK: https://stability.ai/news/stable-audio-2-0

Command R+, la nueva IA generativa de Cohere para uso empresarial a gran escala

Command-R+ es la nueva IA generativa avanzada de Cohere diseñada para uso empresarial a gran escala. Especializada en la generación de recuperación aumentada (RAG) y la utilización de herramientas, Command-R+ permite a las organizaciones implementar soluciones basadas en IA que utilizan conocimientos propios y agilizan tareas complejas en 10 idiomas.
Con una ventana de contexto de tokens de 128k ampliada y opciones de precios mejoradas, Command-R+ funciona junto con los modelos Embed y Rerank de Cohere, mejorando tanto la precisión como la productividad, al tiempo que pone un fuerte énfasis en la protección y confidencialidad de los datos.
En muchos idiomas, Command R+ utiliza muchos menos tokens que los modelos GPT para representar el mismo texto. Esto reduce significativamente los costes totales.
LINK: https://txt.cohere.com/command-r-plus-microsoft-azure/

"Jamba", un LLM basado en una nueva arquitectura híbrida que mezcla Transformers y Mamba a través de una estructura de mezcla de expertos (MoE)

Jamba busca combinar las ventajas de ambos tipos de modelos para mejorar la capacidad y la eficiencia de los modelos de lenguaje.
La arquitectura permite adaptaciones específicas según los recursos disponibles y los objetivos del modelo.
Se destaca el alto rendimiento de Jamba en benchmarks de modelos de lenguaje y evaluaciones de contexto largo (hasta 256K tokens).
El modelo funciona eficientemente en una GPU de 80GB en 8 bits con 140K de contexto.
Los autores han hecho públicos los pesos de Jamba bajo una licencia permisiva, fomentando la exploración adicional de esta arquitectura.
PAPER: https://arxiv.org/abs/2403.19887

LITA revoluciona la comprensión de vídeo

"LITA: Language Instructed Temporal-Localization Assistant", tiene como objetivo mejorar la localización temporal en modelos de lenguaje multimodal (LLMs) con entrada de video, una capacidad crucial para responder preguntas sobre "cuándo" ocurren eventos en un video.
LITA se entrena con cinco tareas, con un énfasis en la localización temporal: (1) subtitulado denso de videos, (2) localización de eventos, (3) preguntas y respuestas de video, (4) preguntas y respuestas visuales en lenguaje natural y (5) la tarea de localización temporal de razonamiento propuesta.
Presenta una innovación significativa en la localización temporal en LLMs de video, mejorando tanto la precisión de la localización temporal como la comprensión general del video en los modelos.
PAPER: https://arxiv.org/abs/2403.19046
GITHUB REPO: https://github.com/NVlabs/LITA

Los modelos lingüísticos están logrando mayores puntuaciones de precisión en la MMLU, mientras que sus costes asociados siguen disminuyendo drásticamente

What’s the trend of AI reasoning costs over time? I made a plot, showing the performance of language models on the MMLU benchmark against their cost, spanning from 2022 to the present day.
The trend is clear: as time progresses language models are achieving higher MMLU accuracy… twitter.com/i/web/status/1…
— Karina Nguyen (@karinanguyen_)
8:42 PM • Mar 29, 2024

El MIT crea un nuevo sistema para generar imágenes de alta calidad 30 veces más rápido

Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han introducido un nuevo marco que agiliza herramientas como Stable Diffusion y DALL-E-3, simplificando el proceso de generación de imágenes a un solo paso, mientras mantiene o mejora la calidad de la imagen.
Esto se hace mediante un tipo de modelo profesor-alumno: enseñar a un nuevo modelo informático a imitar el comportamiento de modelos originales más complicados que generan imágenes. El enfoque, conocido como destilación de coincidencia de distribución (DMD), conserva la calidad de las imágenes generadas y permite una generación mucho más rápida.
Este modelo de difusión en un solo paso podría mejorar las herramientas de diseño, permitiendo una creación de contenidos más rápida y apoyando potencialmente los avances en el descubrimiento de fármacos y el modelado 3D, donde la rapidez y la eficacia son fundamentales.
LINK: https://news.mit.edu/2024/ai-generates-high-quality-images-30-times-faster-single-step-0321

Octopus v2: El modelo de lenguaje on-device que supera a GPT-4 en términos de precisión y latencia

"Octopus v2" es un modelo de lenguaje on-device desarrollado por investigadores de Universidad de Stanford.
Este modelo posee 2.000 millones de parámetros, y busca superar el rendimiento del GPT-4 en términos de precisión y latencia, al tiempo que reduce la longitud del contexto en un 95%. Octopus v2 se comparó con otros modelos, como GPT 3.5 y llama 7 billion, mostrando resultados superiores en precisión y latencia.
Se enfoca en mejorar la latencia y la precisión en la llamada a funciones, especialmente para implementaciones en dispositivos edge como smartphones, coches y auriculares VR.
Octopus v2 muestra ser una solución potente y eficiente para aplicaciones en el mundo real, particularmente en dispositivos con recursos limitados.
La investigación indica que los modelos más pequeños pueden ser tan efectivos como los más grandes en tareas específicas, desafiando la tendencia de "más grande es mejor".
PAPER: https://arxiv.org/pdf/2404.01744v1.pdf

VoT: el enfoque de Microsoft para mejorar significativamente las capacidades de razonamiento espacial de los LLMs

El principal objetivo de este estudio es explorar y mejorar la capacidad de razonamiento espacial en los Modelos de Lenguaje de Gran Escala (LLMs). Los investigadores proponen un enfoque denominado "Visualization-of-Thought" (VoT), inspirado en la capacidad humana de generar imágenes mentales (el "ojo de la mente") para facilitar el razonamiento espacial.
La metodología consiste en la aplicación de VoT a LLMs en tareas de razonamiento espacial de múltiples pasos. Estas incluyen la navegación en lenguaje natural, la navegación visual y el "tiling" visual en mundos de cuadrículas 2D. Se compara el rendimiento de los LLMs con y sin la técnica VoT, así como con otros modelos de lenguaje multimodal de gran tamaño (MLLMs).
Los resultados mostraron que VoT mejora significativamente las capacidades de razonamiento espacial de los LLMs. En las tareas probadas, los modelos con VoT superaron a los MLLMs existentes. Esto sugiere que la generación de imágenes mentales internas, similar al proceso del "ojo de la mente" humano, es una técnica viable para mejorar el razonamiento espacial en LLMs y posiblemente en MLLMs.
Este estudio aporta una perspectiva interesante sobre cómo los modelos de lenguaje pueden desarrollar una capacidad similar a la de los humanos para visualizar y razonar espacialmente, lo que podría tener implicaciones significativas para futuras investigaciones y aplicaciones en IA.
PAPER: https://arxiv.org/pdf/2404.03622.pdf

Robots

WALKER, robot de IA de Ubtech

LINK: https://www.ubtrobot.com/humanoid/products/Walker

Apollo, el Nuevo Robot Humanoide de Anthropic

Apollo se desarrolló a partir de la experiencia y los conocimientos de Apptronik en la construcción de más de 10 robots anteriores, incluido el robot Valkyrie de la NASA.
A corto plazo, Apollo operará en almacenes y plantas de fabricación, y con el tiempo se extenderá a los sectores de la construcción, el petróleo y el gas, la producción electrónica, el comercio minorista, el reparto a domicilio, el cuidado de ancianos y muchos otros.
Apollo es el primer robot humanoide comercial diseñado para interactuar con facilidad, fabricarse en serie, soportar grandes cargas y ser seguro.
LINK: https://apptronik.com/apollo

Reflexiones Finales

Hablemos de la situación actual de la IA

Los deepfakes se están volviendo demasiado reales en un año electoral

No creas todo lo que ves. 7 ejemplos salvajes que no te puedes perder:

🚨Deepfakes are getting too real in an election year.
Don't believe everything you see🤯
7 wild examples you cannot miss:
1. AI-generated Barack Obama has a message for you
— Min Choi (@minchoi)
3:14 PM • Mar 28, 2024