Boletín Semanal Best-IA #38

Aprende IA, día a día.

Tutoriales

CURSO LEONARDO AI - 2024 - CLASE 01

Krea: IMÁGENES de IA con TRANSFERENCIA DE ESTILO

9 Mejores Prácticas para construir Microservicios

Noticias

Google hace GRANDES anuncios sobre IA

Gemini 1.5 Pro ya está disponible en más de 180 países; con comprensión de audio nativo, instrucciones del sistema, modo JSON y mucho más

  • Google ha lanzado Gemini 1.5 Pro, ya disponible en más de 180 países a través de la API Gemini en vista previa pública.

  • El modelo puede procesar hasta 1 millón de tokens para comprender gran cantidad de información de textos, imágenes y vídeos.

  • 1.5 Pro puede analizar, clasificar y resumir contenidos extensos sin esfuerzo.

  • Responde preguntas a partir de vídeos de YouTube.

  • Prompting multimodal.

  • La arquitectura de mezcla de expertos adaptada en este modelo representa un avance significativo en la tecnología de IA de Google.

Google se enfoca en agentes de IA

  • Google está enfocando sus esfuerzos en desarrollar agentes de IA para una gran variedad de aplicaciones, desde servicio al cliente hasta productividad de empleados y marketing.

    • Estos agentes de AI están diseñados para procesar información multimodal, interactuar con otros agentes y humanos, y transformar la forma en que interactuamos con la tecnología.

  • Estos agentes de AI están destinados a ser utilizados en diferentes áreas, como servicio al cliente, marketing, análisis de datos, ciberseguridad, desarrollo de páginas de comercio electrónico y más.

  • Google también presentó Vertex AI Agent Builder para facilitar la creación de agentes de servicio al cliente personalizados.

  • Además, Google está lanzando Google Vids, una aplicación de creación de videos automatizada con inteligencia artificial, que se integra con Google Docs, Sheets y Slides para facilitar la creación de presentaciones de video.

  • La integración de la AI en herramientas de trabajo como Google Docs y Google Vids está destinada a mejorar la productividad y la eficiencia en diversas áreas, como marketing, producción de contenido y desarrollo de software.

  • Se espera que la integración de Gemini 1.5 Pro en Gemini Code Assist mejore significativamente la productividad de los desarrolladores de software al permitir cambios a gran escala en el código de manera más eficiente.

Google Cloud TPU v5p

  • Cloud TPU v5p es la Cloud TPU de quinta generación de Google Cloud y la sucesora de la TPU v4. La v5p está optimizada para el entrenamiento a gran escala y es una plataforma líder en el desarrollo de LLM fundamentales, modelos de difusión y la IA generativa.

  • En un nivel alto, v5p proporciona hasta el doble del rendimiento que v4, a la vez que empaqueta 2 veces más TPU en un Pod (6,000 porciones más grandes en comparación con 3,000 en v4), lo que brinda un rendimiento de hasta 4 veces a nivel de Pod.

  • También se ejecuta con una frecuencia de reloj más alta (1.75 GHz en comparación con 1.05 GHz), agrega SparseCore para incorporaciones a gran escala y triplica la capacidad de memoria de gran ancho de banda (HBM).

  • LINK: https://cloud.google.com/tpu/docs/v5p-training

Google presenta sus nuevos modelos GEMMA

  • CodeGemma es una colección de modelos de código abierto especializados construidos sobre la base de Gemma. Estos modelos están diseñados para realizar una variedad de tareas de generación de código y lenguaje natural. El objetivo es proporcionar modelos con capacidades avanzadas en comprensión de lenguaje natural, razonamiento matemático y generación de código, adecuados tanto para tareas generales como para aplicaciones sensibles a la latencia.

    • CodeGemma 7B (PT y IT): Estos modelos demuestran una comprensión del lenguaje natural excepcionalmente resistente, excelencia en razonamiento matemático, y capacidades de generación de código comparables a otros modelos abiertos.

    • CodeGemma 2B: Se posiciona como un modelo de vanguardia para completar código. Está diseñado para infilling de código rápido y generación abierta en contextos sensibles a la latencia.

    • PAPER: https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

  • RecurrentGemma es un modelo del lenguaje optimizado para la experimentación en investigación. Se basa en una nueva arquitectura de redes recurrentes (RNN) con atención local que busca mejorar la eficiencia de la memoria. El objetivo es ofrecer un modelo alternativo a los basados en transformers, como el Gemma 2B, que sea capaz de funcionar eficientemente en dispositivos con memoria limitada, manteniendo un alto rendimiento en diversas métricas.

  • LINK: https://developers.googleblog.com/2024/04/gemma-family-expands.html

Los Infini-Transformers de Google son capaces de procesar texto de longitud prácticamente ilimitada con una eficiencia y precisión sin precedentes

  • Desarrollados por investigadores de Google, los Infini-Transformers marcan un hito en el procesamiento avanzado de lenguaje natural. Se trata de una evolución revolucionaria de los modelos de Transformer tradicionales, diseñados para manejar eficientemente textos extremadamente largos.

  • La capacidad de procesar y comprender contextos largos con eficiencia abre posibilidades para avances significativos en áreas como el análisis automático de textos legales, científicos o literarios de gran longitud, así como en la creación de resúmenes más precisos y detallados de documentos extensos. Además, estos desarrollos podrían allanar el camino para modelos de IA que interactúen de manera más natural y efectiva con usuarios en contextos de diálogo extensos, recordando y refiriendo a información previa con mayor precisión

  • Si quieres saber más, analizamos en profundidad este paper en nuestro blog.

  • PAPER: https://arxiv.org/pdf/2404.07143.pdf

Ya está disponible, en la API y en ChatGPT, el modelo GPT-4 Turbo mejorado, que recupera el primer puesto en la clasificación de Arena

  • GPT-4 Turbo con Vision ya está disponible de forma general en la API. Las solicitudes de Vision ahora también pueden utilizar el modo JSON y la llamada a funciones.

Nuevo modelo Mixtral 8x22B

  • Como ya es costumbre en esta compañía, Mistral ha lanzado su nuevo modelo con un simple enlace al archivo torrent.

Udio, increible app para crear música

  • Como Dj, músico, y productor, os puedo asegurar que me ha dejado impresionado. 😵‍💫 

Reflexiones Finales

La IA del FUTURO será capaz de IMAGINAR | Modelos del Mundo

Geoffrey Hinton afirma que los modelos de IA tienen intuición, creatividad y la capacidad de ver analogías que las personas no pueden ver

Hablando de PRIVACIDAD y RECONOCIMIENTO FACIAL