Boletín Semanal Best-IA #39

Aprende IA, día a día.

Tutoriales

Crea ASISTENTES GPTs con LLAMA 3 🤯 100% GRATIS

Tutorial de automatización de flujos de trabajo con Make

Crea Mapas Mentales IMPRESIONANTES en segundos con IA (Gratis)

Jan AI Tutorial en Español. El poder de la AI Generativa en tu ordenador, totalmente LOCAL y GRATIS

Noticias

Meta lanza Llama 3: el LLM de libre acceso más capaz hasta la fecha

  • LlaMA 3 llega con dos versiones de modelo base e instruct. Cada uno con dos tamaños, el pequeño de 8B y el grande 70B.

  • Presentan unos resultados muy prometedores, situándose sin problema por encima de las opciones medianas tanto de Gemini 1.5 como de Claude 3.

  • Llama 3 no es un Mixture-of-expert, sino que vuelve a ser un modelo denso, rompiendo con la tendencia de otras organizaciones como OpenAI o Mistral.

  • Meta lanzará Llama 3 multimodal en un futuro próximo, con un contexto más largo y mejores capacidades de razonamiento y codificación.

  • Se está entrenando un Llama 3 de 400B, cuyos resultados se aproximan a la última versión de GPT-4 Turbo y a Claude 3 Opus de la semana pasada.

Musk lanza "Vision" Grok para rivalizar con ChatGPT-4

  • Tras el lanzamiento de Grok-1.5 LLM (Large Language Model) el mes pasado, la empresa de IA de Musk -xAI- ha lanzado Grok-1.5 Vision (Grok-1.5V), un chatbot de IA que puede procesar texto e información visual (algo que el Grok-1.5 original no podía hacer).

  • Según los informes, Grok-1.5V obtuvo mejores resultados que sus rivales -incluidos GPT-4, Claude y Gemini Pro- en las pruebas de referencia RealWorldQA, que miden la comprensión en el mundo real.

  • Es capaz de procesar información visual -incluidos documentos, diagramas, capturas de pantalla y fotografías- traduciendo diagramas a código y dibujos a historias.

  • Grok-1.5V aún no está disponible, pero "llegará pronto" a los primeros probadores y a los usuarios actuales, ya que mejoran sus capacidades para procesar imágenes, audio y vídeo.

  • LINK: https://x.ai/blog/grok-1.5v

Microsoft VASA-1: Caras parlantes con sonido realista generadas en tiempo real

  • VASA-1 es un marco para generar caras parlantes realistas de personajes virtuales con atractivas habilidades visuales afectivas (VAS), dada una única imagen estática y un clip de audio de habla.

  • VASA-1, no sólo es capaz de producir movimientos labiales exquisitamente sincronizados con el audio, sino también de captar un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad.

  • El modelo no sólo ofrece una alta calidad de vídeo con dinámicas faciales y craneales realistas, sino que también admite la generación en línea de vídeos de 512x512 a una velocidad de hasta 40 FPS con una latencia inicial insignificante.

  • Este método allana el camino para interactuar en tiempo real con avatares realistas que emulan los comportamientos conversacionales humanos.

Ya está disponible la API de Stable Diffusion 3

  • Stable Diffusion 3 y Stable Diffusion 3 Turbo ya están disponibles en la API de la plataforma para desarrolladores de Stability AI.

  • Este modelo iguala o supera a los sistemas de generación de texto a imagen más avanzados, como DALL-E 3 y Midjourney v6, en cuanto a tipografía y cumplimiento de las instrucciones, según las evaluaciones de preferencias humanas.

  • LINK: https://stability.ai/news/stable-diffusion-3-api

Reka lanza Reka Core, su modelo multimodal más capaz

  • Se trata de un modelo de lenguaje multimodal de primera línea, a la altura de los modelos más avanzados del sector. Core se entrenó eficazmente desde cero en miles de GPU durante varios meses.

  • Comprensión multimodal. Core posee una potente comprensión contextualizada de imágenes, vídeos y audio.

  • Ventana contextual de 128K.

  • Razonamiento. Core tiene una capacidad de razonamiento excelente (incluyendo lenguaje y matemáticas), lo que lo hace adecuado para tareas complejas que requieren un análisis sofisticado.

  • Codificación. Core es un generador de código de primer nivel. Su capacidad de codificación, combinada con otras capacidades, puede potenciar los flujos de trabajo agénticos.

  • Multilingüe. Core se ha entrenado previamente con datos textuales de 32 idiomas. Domina el inglés y varios idiomas asiáticos y europeos.

  • Está disponible a través de API.

POE permite utilizar diferentes Chatbots en un solo hilo de conversación

  • POE ha lanzado el chat multibot. Esta nueva característica permite a los usuarios interactuar con múltiples modelos de inteligencia artificial, como Claude 3 Opus, GPT-4, Gemini 1.5 Pro, y muchos otros, en un solo hilo de conversación.

    De este modo, POE combina la capacidad de varios bots en una única interfaz, facilitando la comparación de respuestas y la colaboración entre diferentes modelos.

  • LINK: https://poe.com/BotGroupChat

Robots

Nuevo Robot Atlas de Boston Dynamics

Reflexiones Finales

Sam Altman sobre el futuro de GPT y la IA

  • Sam Altman ofrece insights sobre la importancia de la creatividad y el pensamiento crítico en un mundo donde la IA asiste en diversas tareas, la necesidad de familiarizarse con las herramientas tecnológicas actuales y la transformación hacia una era de inteligencia artificial abundante y accesible.

El estado de la IA según la Universidad de Stanford, en 13 gráficos

  • El video explora el estado de la IA a través de un estudio de la Universidad de Stanford, que destila ideas clave en 13 gráficos.

  • Este resumen ofrece una instantánea de las tendencias y desarrollos actuales en el panorama de la IA, reflejando tanto los avances tecnológicos como la dinámica económica que configura el futuro de la IA.

  • PRINCIPALES CONCLUSIONES del INFORME

    1. La IA supera a los humanos en algunas tareas, pero no en todas.

    2. La industria continúa dominando la investigación en IA de frontera.

    3. Los modelos de frontera se vuelven mucho más costosos.

    4. Estados Unidos lidera a China, la UE y el Reino Unido como la principal fuente de los mejores modelos de IA.

    5. Las evaluaciones robustas y estandarizadas de la responsabilidad de LLM son seriamente deficientes.

    6. La inversión en IA generativa se dispara.

    7. Los datos lo confirman: la IA hace que los trabajadores sean más productivos y genera un trabajo de mayor calidad.

    8. El progreso científico se acelera aún más, gracias a la IA.

    9. El número de regulaciones de IA en Estados Unidos aumenta bruscamente.

    10. Las personas en todo el mundo son más conscientes del impacto potencial de la IA, y están más nerviosas.

  • LINK: https://aiindex.stanford.edu/report/