Boletín Semanal Best-IA #49

Aprende IA, día a día.

Tutoriales

Ejecuta Gemma 2 9B en un Google Colab gratuito

  • Ejecuta el mejor LLM < 15B, en menos de 5 líneas de código.

Crea MÚSICA con JenMusic

Cómo probar Stable Diffusion 3 Medium

  • Stability AI acaba de lanzar Stable Diffusion 3 Medium, un nuevo modelo de texto a imagen con una calidad, un fotorrealismo y una tipografía excepcionales, que ya está disponible de forma gratuita en Hugging Face.

  • Paso a paso:

    1. Visita la página de Stable Diffusion 3 Medium en Hugging Face.

    2. En el cuadro de texto "Enter your prompt", escribe una indicación detallada que describa la imagen deseada.

    3. Perfecciona el resultado utilizando ajustes avanzados en “Advanced settings”, como prompt negativo, semilla, escala de orientación, anchura y altura.

    4. Haz clic en "Ejecutar" para generar tu imagen y ver los resultados en el área de visualización de imágenes.

Noticias

Gemma 2 ya está disponible para investigadores y desarrolladores

  • Disponible en tamaños de 9.000 millones (9B) y 27.000 millones (27B) de parámetros, Gemma 2 es más eficaz y eficiente en la inferencia que la primera generación, con importantes avances en seguridad. De hecho, con 27B, ofrece alternativas competitivas a modelos de más del doble de su tamaño, con un rendimiento que hasta diciembre sólo era posible con modelos propios. Y ahora se puede conseguir en una sola GPU NVIDIA H100 Tensor Core o TPU host, lo que reduce significativamente los costes de implantación.

Nuevas Funcionalidades en la API de Gemini y Google AI Studio

  • Google ha anunciado mejoras significativas en la API de Gemini y Google AI Studio, diseñadas para mejorar las capacidades de los desarrolladores:

    1. Ventana de Contexto de 2 Millones de Tokens:

      • Acceso ampliado a la ventana de 2 millones de tokens en Gemini 1.5 Pro.

      • Implementación de caching de contexto para reducir costos reutilizando tokens en múltiples prompts.

    2. Ejecución de Código:

      • Los modelos Gemini 1.5 Pro y 1.5 Flash ahora pueden generar y ejecutar código Python.

      • Ejecución en un entorno seguro sin conexión a internet.

  • LINK: https://developers.googleblog.com/es/new-features-for-the-gemini-api-and-google-ai-studio/

llama-agents: Un potente marco para construir sistemas de IA multiagente de producción

  • Llamaindex ha presentado un nuevo marco para poner en producción sistemas de IA multiagente.

  • Actualmente en versión alfa, llama-agents ofrece:

    • Arquitectura distribuida y orientada a servicios

    • Comunicación a través de API HTTP estándar

    • Orquestación agenética y explícita de flujos

    • Fácil despliegue, escalabilidad y observabilidad

OpenAI ha compartido una actualización sobre su esperado Modo de Voz Avanzado de ChatGPT

  • Inicialmente, se planeaba lanzar la versión alfa a finales de junio para un pequeño grupo de usuarios de ChatGPT Plus. Sin embargo, la empresa ha decidido posponer el lanzamiento un mes más para mejorar varios aspectos cruciales, como la capacidad del modelo para detectar y rechazar ciertos contenidos inapropiados. Además, están trabajando en mejorar la experiencia del usuario y en preparar la infraestructura para escalar a millones de usuarios, garantizando respuestas en tiempo real.

  • El despliegue del Modo de Voz comenzará con un grupo reducido de usuarios para recopilar feedback y realizar ajustes necesarios antes de expandirlo a más personas. OpenAI espera que todos los usuarios de ChatGPT Plus puedan acceder a esta función en otoño, siempre y cuando se cumplan sus altos estándares de seguridad y fiabilidad.

  • También se está trabajando en el lanzamiento de nuevas capacidades de video y compartición de pantalla, con más detalles por venir.

  • El Modo de Voz Avanzado de ChatGPT promete entender y responder con emociones y señales no verbales, acercando la interacción con la IA a una conversación más natural y en tiempo real. Esta mejora es un paso significativo hacia la misión de OpenAI de ofrecer experiencias innovadoras y seguras en inteligencia artificial.

OpenAI presenta CriticGPT

  • CriticGPT es un modelo basado en GPT-4 que identifica errores en las respuestas de ChatGPT, particularmente en la salida de código. El propósito es mejorar la capacidad de los entrenadores humanos de detectar errores mediante la asistencia de CriticGPT, lo que se espera que mejore el proceso de "Reinforcement Learning from Human Feedback" (RLHF).

  • Los entrenadores humanos que utilizaron CriticGPT para revisar el código superaron a los que no contaron con su ayuda en un 60% de los casos. Los entrenadores prefirieron las críticas de CriticGPT sobre las de ChatGPT en un 63% de los casos para errores naturales.

  • Ventajas y Limitaciones: CriticGPT mejora las críticas, reduciendo errores inventados y quejas menores, pero tiene limitaciones en la supervisión de respuestas largas y complejas y la detección de errores dispersos.

  • Estos hallazgos sugieren que los críticos de LLM pueden mejorar significativamente la capacidad de los humanos para evaluar el código generado por modelos de lenguaje, lo que podría llevar a modelos de IA más seguros y precisos en el futuro.

Los fotogramas clave han llegado a Dream Machine

  • Los fotogramas clave de inicio y fin te dan el control narrativo, mientras que las instrucciones de texto guían el viaje. Ahora, puedes cambiar la iluminación y las estaciones, controlar las perspectivas, modificar los sujetos y crear transiciones imposibles.

Reflexiones Finales

El Futuro de la Inteligencia Artificial según Jon Hernández