Best-IA Newsletter
Posts
Boletín Semanal Best-IA #36

Boletín Semanal Best-IA #36

Aprende IA, día a día.

Best-IA
1 de abril de 2024

Best-IA. ¡Aprende IA, día a día!

Tutoriales

La Guía Definitiva de Midjourney 2024 | De principiante a pro

Claude API. Tutorial en Español

Crea GRATIS tus propios covers de canciones con IA

DEVIKA - Ingeniero de software de IA de código abierto | Instalación local

Noticias

Claude 3 Opus destrona a GPT-4 en la clasificación de LMSYS Chatbot Arena

Claude-3 Opus ya es nº 1 en la clasificación de evaluaciones humanas. GPT-4 es ahora oficialmente #2
Aún más impresionante, el extremadamente económico Claude 3 Haiku, está cerca de ser un competidor GPT-4.
Starling-7B supera a GPT 3.5, Mistral y Gemini Pro.

LINK: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

Microsoft y OpenAI planean invertir 100 mil millones de dólares en un superordenador llamado "Proyecto Stargate" para desarrollar AGI y ASI

Este proyecto representa un salto significativo en términos de escala y costo, comparado con los sistemas actuales.
El plan abarca los próximos seis años, apuntando al desarrollo de AGI para 2028 y expandiéndose hasta 2030.
Se están estudiando diferentes desafíos técnicos y energéticos, incluyendo la posible necesidad de avances en energía nuclear para sostener la iniciativa.
FUENTE: https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer

𝕏 anuncia Grok-1.5

Grok-1.5 viene con capacidades de razonamiento mejoradas y una longitud de contexto de 128.000 tokens.
Estará disponible en los próximos días para los usuarios actuales de Grok en la plataforma 𝕏.
LINK: https://x.ai/blog/grok-1.5

Databrics lanza DBRX

DBRX es un LLM de propósito general que establece un nuevo estándar para modelos eficientes de código abierto.
Supera ampliamente a modelos de código abierto como LLaMA2-70B, Mixtral y Grok-1 en comprensión del lenguaje, programación, matemáticas y lógica. De hecho, la prueba de referencia de código abierto Gauntlet contiene más de 30 pruebas de referencia del estado de la técnica (SOTA) y DBRX supera a todos esos modelos.
DBRX supera a GPT-3.5 en la mayoría de las pruebas comparativas.
Utiliza solo 36 mil millones de parámetros en cualquier momento dado. Pero el modelo en sí tiene 132 mil millones de parámetros, ofreciendo un excelente resultado en cuanto a velocidad (tokens/segundo) y rendimiento (calidad).
LINK: https://www.databricks.com/blog/announcing-dbrx-new-standard-efficient-open-source-customizable-llms

Google DeepMind presenta SAFE, un sistema “superhumano” para fact-checking IA

Un nuevo estudio de la unidad de investigación DeepMind de Google ha descubierto que un sistema de inteligencia artificial puede superar a los verificadores de hechos humanos cuando evalúan la exactitud de la información generada por grandes modelos lingüísticos.
El sistema utiliza un proceso de varios pasos en el que un LLM evalúa cada hecho en una respuesta basándose en resultados de búsqueda de Google.
El método propuesto utiliza un LLM para evaluar la precisión de hechos individuales en una respuesta larga. Esto implica desglosar respuestas, enviar consultas de búsqueda y evaluar el soporte de cada hecho a partir de los resultados de la búsqueda.
Esta nueva métrica equilibra la precisión (hechos respaldados) y la recuperación (hechos proporcionados en relación con una longitud de respuesta deseada).
Este estudio no solo mejora nuestra comprensión de la precisión factual en los LLMs, sino que también ofrece una metodología más económica y eficiente para evaluar la información generada por la IA.
(es 20 veces más barato que la anotación humana).
Se probaron trece modelos de lenguaje de cuatro familias (Gemini, GPT, Claude y PaLM-2), mostrando generalmente los modelos más grandes un mejor rendimiento en facticidad.
Con acceso abierto a LongFact, SAFE y el código experimental, el camino está abierto para futuras innovaciones en este campo.
PAPER: https://arxiv.org/pdf/2403.18802.pdf

Google presenta VideoPrism, un codificador visual fundacional para la comprensión de vídeo

VideoPrism es un ViFM diseñado para manejar un amplio espectro de tareas de comprensión de vídeo, incluyendo clasificación, localización, recuperación, subtitulado y respuesta a preguntas (QA).
VideoPrism fue entrenado en un conjunto de datos masivo y diverso: 36 millones de pares vídeo-texto de alta calidad y 582 millones de clips de vídeo con texto paralelo ruidoso o generado por máquinas.
El enfoque de preentrenamiento está diseñado para estos datos híbridos, para aprender tanto de los pares vídeo-texto como de los propios vídeos.
VideoPrism es increíblemente fácil de adaptar a nuevos retos de comprensión de vídeo, y alcanza un rendimiento puntero utilizando un único modelo congelado.
PAPER: https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html

OPENAI presenta VOICE ENGINE

Voice Engine utiliza la entrada de texto y una única muestra de audio de 15 segundos para generar un habla natural muy parecida a la del hablante original. Es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas.
LINK: https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

Canva adquiere Affinity

LINK: https://affinity.serif.com/es/press/newsroom/canva-statement/

Lanzamiento de Mistral v0.2

Originalmente, el modelo Mistral-Instruct-V0.2 estaba basado en el modelo base Mistral-7B-v0.1, pero el archivo readme se actualizó silenciosamente para revelar que en realidad estaba basado en el modelo base Mistral-7B-v0.2, más reciente.
Funciona significativamente mejor que la versión anterior v0.1 y tiene una ventana de contexto de 32k (frente a 8k de la v0.1)
El equipo de IA de Mistral ha declarado que tiene previsto publicar futuros modelos de código abierto, por lo que el retraso en la publicación del modelo base v0.2 puede deberse a razones estratégicas.
El modelo Mistral-Instruct-V0.2 está disponible en varios formatos de cuantización en Hugging Face, con recomendaciones sobre qué versiones utilizar en función de la calidad y los requisitos de RAM.
PRUÉBALO: https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2

StableCode Instruct 3B: NUEVO modelo de lenguaje de codificación para desarrolladores

Stable Code Instruct 3B es un LM de código ajustado a instrucciones basado en Stable Code 3B. Con instrucciones en lenguaje natural, este modelo puede gestionar diversas tareas, como la generación de código, las matemáticas y otras consultas relacionadas con el desarrollo de software.
Este modelo proporciona un rendimiento puntero a escala 3B y supera a modelos de mayor tamaño, como CodeLlama 7B Instruct, y tiene un rendimiento comparable al de StarChat 15B en tareas relacionadas con la ingeniería de software.
El modelo ya está disponible con una suscripción a Stability AI para uso comercial. Los pesos y el código de Stable Code Instruct 3B ya están disponibles en Hugging Face.

La IA puede predecir la orientación política a partir de imágenes similares a las del pasaporte

Tanto los humanos (r = .21) como el algoritmo (r = .22) pudieron predecir la orientación política de los participantes a partir de imágenes neutras. Al incluir información sobre la edad, género y etnia de los participantes, la precisión predictiva del algoritmo aumentó (r = .31). Estos valores, aunque no son extremadamente altos, son significativos, lo que indica que tanto humanos como algoritmos pueden hacer predicciones sobre la orientación política mejor que el azar solo con ver las caras de las personas.
Se encontró una asociación generalizada entre la apariencia facial y la orientación política más allá de la muestra: el modelo predictivo pudo predecir la orientación política (r ≈ .13) de imágenes naturales de 3,401 políticos de EE. UU., Reino Unido y Canadá.
Se observó que los conservadores tendían a tener rostros inferiores más grandes.
Estos resultados tienen implicaciones significativas para la privacidad y la regulación de la tecnología de reconocimiento facial, así como para la comprensión de los orígenes y consecuencias de la orientación política.
PAPER: https://psycnet.apa.org/fulltext/2024-65164-001.html
Otro estudio similar previo, ya había mostrado cómo la IA puede predecir la orientación política a partir de imágenes de perfil en redes sociales (https://www.nature.com/articles/s41598-020-79310-1)

Reflexiones Finales

Yann LeCun. “La AGI no está cerca”

Yann LeCun es un informático franco-estadounidense conocido por su trabajo pionero en aprendizaje automático, visión por ordenador y redes neuronales profundas. Ha realizado importantes contribuciones al campo de la inteligencia artificial a lo largo de su distinguida carrera académica e industrial.
Según LeCun, a pesar del progreso significativo en la IA, la AGI no está tan cerca como algunos podrían pensar. La consecución de una verdadera AGI, capaz de comprender y realizar cualquier tarea intelectual que un ser humano pueda, probablemente tomará más de una década.
El “padrino de la IA” sostiene que el avance hacia la AGI no ocurrirá de la noche a la mañana ni como un evento aislado, sino que será el resultado de un progreso continuo y sostenido.

La Singularidad está más cerca según Ray Kurzweil

Hace veinticinco años, Ray Kurzweil predijo que los ordenadores alcanzarían el nivel de inteligencia humana en 2029, lo que daría soluciones a los mayores retos del mundo. En la década de 2030, la IA se convertirá en superinteligente, superando ampliamente nuestras capacidades y permitiendo avances médicos espectaculares para superar el envejecimiento. La IA está evolucionando desde nuestro interior y reflejará nuestra humanidad. Para 2045, conectaremos nuestros cerebros directamente a la nube, multiplicando nuestra inteligencia por un millón y expandiendo nuestra conciencia de formas que apenas podemos imaginar. Esto es la Singularidad.

El control de la IA se está decidiendo ahora, según Emad Mostaque

Peter y Emad hablan sobre la dimisión de Emad como CEO de StabilityAI, sus próximos pasos en la IA descentralizada y por qué es tan urgente trabajar en la descentralización AHORA.
Emad Mostaque es el antiguo consejero delegado y cofundador de Stability AI, una empresa que financia el desarrollo de sistemas de generación de música e imágenes de código abierto como Dance Diffusion, Stable Diffusion y Stable Video 3D.