Boletín Semanal Best-IA #45

Aprende IA, día a día.

Tutoriales

20 HERRAMIENTAS GRATUITAS con INTELIGENCIA ARTIFICIAL que debes conocer

Cómo Crear una RAG App Eficiente y Confiable con LangChain

Aprende Cualquier Habilidad Rápidamente Usando ChatGPT

Noticias

META presenta Chameleon, su novedosa familia de modelos multimodales para manejar texto e imágenes de manera conjunta

  • Chameleon es una familia de modelos de inteligencia artificial desarrollada por el equipo de FAIR en Meta. Estos modelos son capaces de entender y generar tanto texto como imágenes en cualquier secuencia. La característica principal de Chameleon es su capacidad para manejar estas dos modalidades (texto e imágenes) de manera conjunta y sin problemas, utilizando una arquitectura unificada basada en tokens.

  • Características Principales:

    1. Fusión Temprana:

      • Chameleon proyecta tanto el texto como las imágenes en un espacio compartido de representaciones desde el inicio. Esto se denomina "fusión temprana".

    2. Representación Basada en Tokens:

      • Imágenes y textos se convierten en tokens discretos (pequeñas unidades de datos), permitiendo al modelo tratar imágenes como si fueran texto.

    3. Arquitectura Unificada:

      • Utiliza una sola arquitectura de transformador para procesar tanto texto como imágenes, evitando la necesidad de componentes específicos para cada modalidad.

  • Chameleon ha demostrado superar a modelos existentes en tareas clave como generación de subtítulos para imágenes y preguntas y respuestas visuales. Esto lo convierte en un modelo altamente eficiente y preciso para aplicaciones prácticas.

  • Limitaciones:

    • OCR: Chameleon tiene dificultades para generar o reconocer texto dentro de imágenes que contienen una gran cantidad de texto, lo que puede limitar su rendimiento en tareas que requieren un procesamiento de texto detallado en imágenes.

    • Calidad de Generación de Imágenes con Texto: Al reconstruir imágenes que contienen texto, la calidad puede no ser tan alta debido a las limitaciones del tokenizador de imágenes, lo que puede afectar tareas que requieren imágenes con texto claramente legible.

  • Permite nuevas aplicaciones como la generación de documentos largos que intercalan texto e imágenes, abriendo posibilidades para usos creativos y educativos que antes no eran posibles con modelos anteriores.

Suno pronto podrá convertir cualquier sonido en una canción

Mistral lanza Codestral 22B, su primer modelo orientado a programación

  • Codestral es un modelo de IA generativa de peso abierto diseñado explícitamente para tareas de generación de código. Ayuda a los desarrolladores a escribir e interactuar con el código a través de un punto final de la API de instrucciones compartidas y finalización.

  • Permite diseñar aplicaciones avanzadas de IA para desarrolladores de software.

  • Codestral 22B supera a Llama 3 70B en benchmarks de programación a pesar de ser un modelo x3 veces menor.

  • Admite VsCode, Llama index y Langchain.

  • Está disponible a través de la API en http://codestral.mistral.ai y en LeChat de forma gratuita durante los próximos 2 meses.

  • Se puede descargar y usar, aunque no está permitido el uso comercial.

Los transformers pueden hacer aritmética con los embeddings adecuados

  • El principal reto que aborda este trabajo es la incapacidad de los transformers para seguir la posición exacta de los dígitos. Para ello, añaden una incrustación a cada dígito que codifica su posición con respecto al inicio del número.

  • Con la aplicación de estos “Abacus Embeddings”, se alcanza una precisión del 99% en problemas de suma de 100 dígitos entrenando sólo con números de 20 dígitos con una sola GPU.

  • Estas ventajas también se trasladan a las tareas de razonamiento en varios pasos, como la ordenación y la multiplicación.

  • Resulta muy interesante ver esta generalización a longitudes de dígitos desconocidas con una modificación tan sencilla. Este es un indicador de que las arquitecturas de transformadores tienen el potencial de beneficiarse de una variedad de modificaciones que mejoran la generalización o desbloquean otras capacidades.

  • PAPER: https://arxiv.org/pdf/2405.17399

El Consejo de OpenAI crea un Comité de Seguridad, responsable de hacer recomendaciones sobre decisiones críticas de seguridad para todos los proyectos de OpenAI

  • Bret Taylor presidirá el nuevo Comité de Seguridad y Protección para supervisar las decisiones críticas de seguridad en OpenAI. El comité estará dirigido por miembros de la junta directiva de OpenAI, incluido el CEO Sam Altman. El comité también incluye a expertos técnicos y políticos de OpenAI, así como la consulta con expertos externos en seguridad y técnicos, como Rob Joyce y John Carlin.

  • Este comité se encargará de hacer recomendaciones sobre decisiones críticas de seguridad para todos los proyectos de OpenAI en los próximos 90 días. Entre sus responsabilidades se encuentra la evaluación y mejora de los procesos y salvaguardias de OpenAI, con el objetivo de garantizar tanto la capacidad como la seguridad de los modelos, especialmente en el contexto del desarrollo hacia la IA General (AGI).

  • Una vez que se complete el período de evaluación, las recomendaciones serán compartidas públicamente de manera que garantice la seguridad y la protección.

  • La composición de este comité, que incluye a empleados de OpenAI, genera dudas sobre posibles conflictos de intereses.

  • LINK: https://openai.com/index/openai-board-forms-safety-and-security-committee/

Jan Leike se incorpora a Anthropic para dirigir su equipo de superalineación

  • Jan Leike, coinventor del aprendizaje por refuerzo con retroalimentación humana (RLHF), ha anunciado que se une a Anthropic para dirigir su misión de "superalineación".

Reflexiones Finales

La vida tal y como la conocemos desaparecerá en 5 años: AI Reset, Riqueza, Guerra y Colapso Económico (Salim Ismail)