Boletín Semanal Best-IA #54

Aprende IA, día a día.

Tutoriales

Cómo obtener GPT4o Mini en Google Docs (Guía paso a paso + Script gratuito)

¡EMPIEZA A USAR la IA GRATIS en tu PC! 👉 3 Herramientas que DEBES CONOCER

Noticias

Google Gemini 1.5 Pro se Alza como Líder en Chatbot Arena

  • Google DeepMind ha presentado su nuevo modelo Gemini 1.5 Pro (Experimental 0801) en Chatbot Arena, logrando un notable reconocimiento y superando a todos sus competidores.

  • Puntos Clave

    1. Liderazgo en el Ranking General: Por primera vez, Google Gemini ha alcanzado el puesto número uno en el ranking general, superando a modelos como GPT-4 y Claude-3.5, con una destacada puntuación de 1300; también alcanzó el nº 1 en la clasificación de Vision.

    2. Desempeño Multilingüe y Técnico: Gemini 1.5 Pro sobresale en tareas multilingües y demuestra un rendimiento robusto en áreas técnicas como Matemáticas, Prompts complejos y Codificación.

    3. Categorías Específicas: En las categorías de Math, Instruction-Following, Coding, y Hard Prompts, Gemini 1.5 Pro se posiciona consistentemente en los primeros lugares.

    4. Ya está disponible para pruebas tempranas y comentarios en Google AI Studio y la API Gemini.

OpenAI comienza a implementar el Modo de Voz Avanzado

  • OpenAI ha comenzado a implementar un Modo de Voz Avanzado para un grupo selecto de usuarios de ChatGPT Plus. Este nuevo modo permite conversaciones más naturales y en tiempo real, con la capacidad de interrumpir y recibir respuestas emocionales.

  • Puntos Clave:

    1. Interacción Natural: El Modo de Voz Avanzado está diseñado para facilitar conversaciones fluidas y espontáneas, mejorando la experiencia de usuario al permitir interrupciones y respuestas emocionales.

    2. Seguridad y Privacidad: Se han implementado estrictas medidas de seguridad, incluyendo el uso de solo cuatro voces predefinidas y sistemas que bloquean contenido inapropiado, garantizando la privacidad y la protección del usuario.

    3. Pruebas y Futuro: Más de 100 expertos externos probaron el sistema en 45 idiomas. Los resultados de estas pruebas se publicarán en agosto, junto con detalles sobre las capacidades y limitaciones del sistema.

NVIDIA muestra su asombrosa actualización del proyecto GR00T

  • NVIDIA ha revelado emocionantes actualizaciones en Project GR00T, un enfoque revolucionario para escalar datos de robots. Este proyecto aborda el desafío de recolectar datos en robótica mediante una combinación de teleoperación y simulación avanzada.

  • ¿Cómo funciona?

    • 1. Teleoperación con Apple Vision Pro: Utilizando el Apple Vision Pro, los operadores humanos pueden controlar robots humanoides en tiempo real, como si estuvieran inmersos en otro cuerpo. Aunque la teleoperación es lenta y costosa, permite recopilar una cantidad limitada de datos de alta calidad.

    • 2. Simulación con RoboCasa: El framework generativo RoboCasa expande los datos recolectados, variando la apariencia y disposición del entorno en simulaciones. Esto permite crear infinitas versiones de escenarios, como múltiples cocinas virtuales con diferentes texturas y disposiciones de objetos, a partir de una única configuración física.

    • 3. Ampliación de Datos con MimicGen:
      MimicGen genera múltiples trayectorias de acción basadas en los movimientos originales registrados, eliminando aquellas que no cumplen los objetivos, como fallos en la manipulación de objetos. Esto resulta en un conjunto de datos significativamente más grande y diverso.

  • Project GR00T utiliza un enfoque de datos sintéticos para escalar exponencialmente la recolección de datos en robótica, superando las limitaciones de tiempo y recursos de la teleoperación tradicional. Este avance promete acelerar el desarrollo en el campo de la robótica, similar a cómo la computación ha potenciado los modelos de lenguaje.

Meta lanza SAM 2

  • Meta ha lanzado SAM 2, una versión avanzada del Segment Anything Model (SAM), expandiendo su capacidad para segmentar objetos no solo en imágenes sino también en videos. Este modelo de código abierto promete revolucionar la segmentación en tiempo real con aplicaciones diversas.

  • Puntos Clave:

    1. Versatilidad y Rendimiento: SAM 2 permite la segmentación de objetos en imágenes y videos con una precisión sin precedentes, sin necesidad de adaptaciones específicas para nuevos dominios visuales, gracias a su capacidad de generalización zero-shot.

    2. Recursos y Accesibilidad: Meta ha liberado el código y los pesos del modelo bajo la licencia Apache 2.0, junto con el dataset SA-V, que contiene 51,000 videos y más de 600,000 anotaciones de máscaras. También ofrecen una demo web para probar el modelo en tiempo real.

    3. Aplicaciones Potenciales: SAM 2 puede ser utilizado en edición de video, creación de efectos especiales, desarrollo de herramientas de anotación más rápidas para datos visuales, y en investigaciones científicas y médicas, como la segmentación de imágenes celulares o el seguimiento de fauna en peligro.

  • Importancia y Aplicaciones: SAM 2 no solo mejora la eficiencia en la anotación de datos visuales, sino que abre nuevas posibilidades para la creatividad y la innovación en áreas como la ciencia, la medicina y la industria del entretenimiento. Al ser de código abierto, democratiza el acceso a herramientas avanzadas de IA, potenciando el desarrollo de aplicaciones que pueden beneficiar a la sociedad en general.

Black Forest Team se presenta lanzando sus asombrosos modelos de texto a imagen FLUX

  • Black Forest Labs ha surgido con la misión de desarrollar modelos avanzados de aprendizaje profundo generativo para imágenes y videos. Este ambicioso proyecto busca llevar la creatividad, eficiencia y diversidad tecnológica a nuevos horizontes.

  • El equipo está compuesto por destacados investigadores e ingenieros de IA con una trayectoria impresionante en la creación de modelos generativos fundamentales.

  • FLUX.1 Suite: La primera oferta de Black Forest Labs incluye la suite de modelos FLUX.1, que establece un nuevo estándar en detalle de imagen, adherencia a la solicitud, diversidad de estilos y complejidad de escena para la síntesis de texto a imagen. La suite FLUX.1 se presenta en tres variantes:

    • FLUX.1 [pro]: Rendimiento superior en generación de imágenes con máxima calidad visual y diversidad.

    • FLUX.1 [dev]: Modelo guiado para aplicaciones no comerciales, eficiente y de alta calidad.

    • FLUX.1 [schnell]: Modelo rápido, ideal para desarrollo local y uso personal.

  • Importancia e Implicaciones: El lanzamiento de Black Forest Labs y su suite FLUX.1 marca un avance significativo en el campo de la IA generativa.

  • Próximo Paso: Black Forest Labs planea desarrollar y lanzar un conjunto de sistemas generativos de texto a video. Estos futuros modelos permitirán la creación y edición de videos en alta definición con una precisión y velocidad sin precedentes, continuando así su misión de innovar en el campo de los medios generativos.

Udio lanza su versión 1.5 con grandes novedades

  • Udio v1.5 trae mejoras significativas respecto a la versión v1. Aquí están algunas de las novedades más destacadas:

    1. Mejora en la Calidad de Audio:
    La calidad de audio es fundamental en Udio y con v1.5 hemos dado un gran salto. Ahora, las pistas generadas tienen una mayor claridad, mejor separación de instrumentos y una musicalidad superior, todo en estéreo de 48kHz.

    2. Página de Creación Dedicada y Descargas de Stems:
    Hemos creado una página de creación dedicada que facilita el acceso a todas nuestras herramientas y a tu biblioteca de canciones. Además, ahora puedes descargar stems separados (Vocales, Bajo, Batería y demás) para remezclar tus pistas con herramientas externas o incorporar elementos de Udio en tu música.

    3. Audio a Audio y Control de Tono:
    La nueva función de audio a audio permite subir tus propias pistas para remezclarlas, ofreciendo una nueva forma de reimaginar tu música. También hemos añadido el control de tono, que te permite dirigir tus creaciones a claves musicales específicas, como Do menor o La bemol mayor.

    4. Soporte Mejorado de Idiomas y Videos de Letras Compartibles:
    Udio v1.5 amplía el soporte a más idiomas, haciéndolo accesible a una audiencia global. Además, ahora puedes crear videos de letras que maximizan la compartibilidad en redes sociales.

  • LINK: https://www.udio.com/blog/introducing-v1-5

Midjourney V6.1: Mejoras en Calidad de Imagen y Personalización

  • Midjourney V6.1 ya está disponible. Esta nueva versión trae importantes mejoras en la calidad de imagen, coherencia, y modelos de personalización y escalado.

  • Novedades en V6.1:

    1. Imágenes más coherentes y de mayor calidad:
      Se ha mejorado la representación de elementos complejos como extremidades, animales y plantas. Además, se han reducido los artefactos de píxeles y mejorado las texturas y detalles en general, incluyendo aspectos retro de 8 bits.

    2. Características detalladas y precisas:
      Ahora los pequeños detalles, como ojos, caras pequeñas y manos distantes, son más precisos y detallados, proporcionando una representación más realista.

    3. Nuevos modelos de escalado y personalización:
      Los nuevos upscalers mejoran significativamente la calidad de las texturas y detalles. El modelo de personalización también ha sido actualizado para ofrecer más matices, sorpresas y precisión. Además, se ha introducido la capacidad de versionar códigos de personalización de trabajos anteriores.

    4. Mejora en la precisión de texto y rendimiento:
      La precisión en la representación de palabras ha mejorado, especialmente al usar citas en los prompts. El procesamiento de imágenes es aproximadamente un 25% más rápido en trabajos estándar, y se ha introducido un modo --q 2 que ofrece más texturas a cambio de una menor coherencia de imagen, con un tiempo de procesamiento 25% mayor.

Reflexiones Finales

Zuckerberg y Jensen hablan del futuro de la IA

Predicciones sobre IA - 2024 a 2030 - Desglose anual