Boletín Semanal Best-IA #24

Tutoriales. Noticias de la semana.

Tutoriales

Compara y clasifica las respuestas de más de 25 LLMs

  • Aquí hay algunas observaciones destacadas:

    1. OpenAI sigue siendo el líder indiscutible de los LLMs.

    2. Los modelos cerrados aún superan a los modelos abiertos (pero la brecha se está reduciendo).

    3. Mistral 8x7b es el mejor modelo de código abierto en este momento.

    4. Gemini Pro no impresiona. Está por debajo de ChatGPT 3.5.

    5. Yi-34B está pasando desapercibido.

Cómo utilizar OpenAI Playground para generaciones más baratas

Embedchain: ¡La MEJOR manera de crear potentes aplicaciones LLM usando RAG! (Código abierto)

Mixtral 8x7B MoE en Google Colab

NUEVO PIKA 🎬 IA para VÍDEOS

3 IAs gratuitas para restaurar fotos antiguas

Noticias

Apple lanza Ferret

  • Ferret, es el LLM multimodal y open-source que Apple ha desarrollado en colaboración con la Universidad de Columbia.

  • La presentación en octubre en Github pasó en gran medida desapercibida. El código de Ferret se publicó junto con Ferret-Bench el 30 de octubre, y los puntos de control se introdujeron el 14 de diciembre.

  • Ferret toma la delantera en la comprensión de pequeñas regiones de imagen, superando a GPT-4V.

  • En términos más sencillos, el modelo puede examinar una región dibujada en una imagen, determinar los elementos dentro de ella que son de utilidad para un usuario en una consulta, identificarla y dibujar un cuadro delimitador alrededor del elemento detectado. A continuación, puede utilizar ese elemento identificado como parte de una consulta, a la que puede responder de la forma habitual.

  • LINK: https://github.com/apple/ml-ferret

  • PAPER: https://arxiv.org/abs/2310.07704

Apple avanza en la ejecución de LLMs en dispositivos con DRAM limitada

  • Apple ha publicado el artículo “LLM in a flash: Efficient Large Language Model Inference with Limited Memory“, sobre la ejecución de Modelos de Lenguaje de Gran Tamaño en dispositivos con DRAM limitada.

  • Su método optimiza la transferencia y el acceso a datos para la memoria flash, utilizando "ventaneo" para reutilizar datos y "agrupación de filas-columnas" para el acceso secuencial de datos.

  • Este enfoque permite ejecutar modelos el doble de grandes que la DRAM disponible, incrementando la velocidad de inferencia en 4-5 veces en CPU y 20-25 veces en GPU.

  • Apple planea integrar la inteligencia artificial generativa en iOS 18, mejorando Siri y Mensajes, y explorando su uso en aplicaciones como Apple Music, Pages, Keynote y Xcode.

Meta Presenta Ego How-To: Revolucionando el Aprendizaje con Realidad Aumentada y Mixta

  • Meta ha anunciado "Ego How-To", un concepto innovador para futuras experiencias inmersivas que transforma los videos instructivos en tutoriales personalizados de realidad aumentada (AR) y realidad mixta (MR).

  • Esta nueva forma de aprendizaje en AR, asistida por un asistente de inteligencia artificial (AI), promete una forma más interactiva y eficaz de adquirir habilidades.

  • Con Ego How-To, un entrenador virtual en AR podrá seguir tu progreso, responder a tus preguntas, evaluar tu técnica y proporcionar retroalimentación en tiempo real para mejorar tus resultados. Esto permite aprender a tu propio ritmo y en cualquier entorno.

  • Este avance se basa en investigaciones fundamentales para superar los desafíos del aprendizaje mediante videos y la percepción multimodal. Para alcanzar esta visión, es necesario avanzar significativamente en la comprensión de videos en primera persona ("egocéntricos"), incluyendo:

    • Reconocimiento detallado de actividades y mapeo de actividades expertas (vistas en tercera persona) a la perspectiva en primera persona del usuario.

    • Estimación de la pose corporal 3D desde el punto de vista egocéntrico.

    • Reconstrucción y renderizado 3D de objetos a partir de videos monoculares en el espacio personal del usuario.

  • Meta apunta a un futuro donde la IA habilite nuevas formas de aprender habilidades en AR/MR. La convergencia sin precedentes de capacidades de IA y la disponibilidad de AR/MR permiten abordar desafíos técnicos centrales. El objetivo es beneficiar a personas en todo el mundo que deseen aprender algo nuevo cada día, haciendo la orientación experta de alta calidad más accesible y el aprendizaje más equitativo.

  • Además, Meta ha lanzado la iniciativa Ego-Exo4D, en colaboración con el consorcio universitario Ego4D, para avanzar en la comprensión de la IA sobre habilidades humanas. Esta iniciativa se enfoca en construir el primer conjunto de datos y suite de referencia de videos de este tipo, marcando un hito significativo en la investigación de IA.

  • LINK: https://ai.meta.com/research/ego-how-to/

Esta nueva IA hace bailar a cualquiera

MOBILE ALOHA: El nuevo robot OPEN SOURCE de Google

  • Mobile Aloha es un proyecto de robot de código abierto desarrollado por investigadores de la Universidad de Stanford, presentado en enero de 2024. Este robot, de bajo costo y con capacidades de manipulación móvil, está diseñado para realizar tareas bimanuales (requiriendo el uso de ambas manos) y tareas que involucran control del cuerpo entero. El robot Mobile Aloha puede ser construido por aproximadamente $32,000, incluyendo la energía a bordo y la capacidad de cómputo.

  • El robot utiliza un enfoque de aprendizaje por imitación para realizar tareas. Se entrena mediante teleoperación, es decir, un humano realiza una tarea y el robot imita y aprende de estas acciones. Este enfoque no lo convierte en un robot completamente autónomo, sino que aprende y generaliza tareas a partir de la teleoperación humana. Por ejemplo, puede aprender a cocinar, limpiar, o realizar otras tareas domésticas imitando las acciones de un humano.

  • La teleoperación se realiza mediante un sistema que registra los movimientos humanos, que el robot luego imita. El robot tiene varias cámaras, incluyendo una cámara egocéntrica (ubicada como si fuera la "cabeza" del robot) y cámaras en las muñecas, para ver las acciones de cerca. Este enfoque de aprendizaje por imitación permite al robot aprender de manera más efectiva y adaptarse a variaciones en su entorno.

  • El proyecto destaca por su accesibilidad y bajo costo, abriendo la posibilidad de que más personas y organizaciones puedan experimentar y trabajar con tecnología robótica avanzada. Además, toda la información sobre el hardware, software y el proceso de aprendizaje del robot está disponible públicamente, lo que facilita su reproducción y mejora por parte de la comunidad.

Reflexiones Finales

¿Cómo evolucionará la IA en 2024? Predicciones