Boletín Semanal Best-IA #55

Aprende IA, día a día.

Noticias

xAI lanza sus nuevos modelos Grok-2

  • xAI, la empresa emergente de inteligencia artificial de Elon Musk, ha lanzado sus nuevos modelos de lenguaje Grok-2 y Grok-2 Mini, prometiendo competir con gigantes del sector como GPT-4 turbo y Claude Sonnet 3.5.

  • Puntos Clave:

    1. Mejoras Significativas: Desde el lanzamiento de Grok-1 en noviembre, xAI ha realizado mejoras sustanciales en sus modelos, afirmando que Grok-2 supera en rendimiento a algunos de los modelos más avanzados del mercado.

    2. Ventaja Estratégica: Al ser propietario de 𝕏 (anteriormente Twitter), Elon Musk tiene acceso a vastas cantidades de datos de conversaciones y noticias en tiempo real, lo que le da a xAI una ventaja única en la capacitación de sus modelos de lenguaje.

    3. Características Avanzadas: Grok-2 incluirá capacidades de generación de imágenes con Flux, búsqueda web y soporte para carga de imágenes, ampliando así su versatilidad y utilidad en diversas aplicaciones.

    4. Preparativos para Competir: Con una inversión en una supercomputadora con 100,000 GPUs H100 y un equipo sólido, xAI se posiciona para competir directamente con líderes de la industria como OpenAI, DeepMind y Anthropic.

  • Los usuarios Premium y Premium+ de 𝕏 tendrán acceso a los dos nuevos modelos.

  • LINK: https://x.ai/blog/grok-2

La última actualización de ChatGPT-4o lo devuelve al primer puesto en la clasificación de lmsys

Anthropic Introduce el "Prompt Caching" para Mejorar Eficiencia y Reducir Costos en el Uso de Claude

  • Anthropic ha lanzado la función de "Prompt Caching" en su API, una herramienta que permite a los desarrolladores almacenar contextos de uso frecuente entre llamadas API. La caché tiene una duración de 5 minutos y se actualiza cada vez que se utiliza el contenido almacenado.

  • Esta innovación promete reducir significativamente tanto los costos como la latencia, ofreciendo mejoras notables en el rendimiento de las interacciones con el modelo Claude.

  • Puntos Clave:

    1. Reducción de Costos y Latencia: Con el uso de "Prompt Caching", los desarrolladores pueden disminuir costos hasta en un 90% y reducir la latencia hasta en un 85% en prompts largos, haciendo que las interacciones sean más ágiles y económicas.

    2. Casos de Uso: Esta herramienta es ideal para aplicaciones que requieren referencias frecuentes a un gran contexto, como agentes conversacionales, asistentes de codificación y procesamiento de documentos largos.

    3. Disponibilidad y Precios: Actualmente disponible en versión beta para Claude 3.5 Sonnet y Claude 3 Haiku, con planes de expansión a Claude 3 Opus. La función tiene un costo adicional para la escritura de prompts, pero ofrece tarifas significativamente más bajas para el uso de contenido cacheado.

  • LINK: https://www.anthropic.com/news/prompt-caching

The AI Scientist: Automatizando el Proceso Completo de Descubrimiento Científico

  • Sakana AI, en colaboración con la Universidad de Oxford y la Universidad de British Columbia, ha presentado The AI Scientist, un sistema que automatiza la investigación científica. Esta innovación promete revolucionar la forma en que se realiza la ciencia al permitir que modelos de lenguaje grandes (LLMs) conduzcan investigaciones de manera independiente.

  • Puntos Clave:

    1. Automatización Completa del Proceso de Investigación: The AI Scientist no solo genera ideas de investigación, sino que también ejecuta experimentos, analiza resultados, y redacta manuscritos científicos completos, incluyendo la revisión por pares automatizada.

    2. Investigación Abierta y Continua: El sistema puede iterar y mejorar continuamente sus propias ideas, creando un ciclo de descubrimiento que imita a la comunidad científica humana, con resultados prometedores en áreas como los modelos de difusión y los transformadores.

    3. Desafíos y Limitaciones Actuales: A pesar de su capacidad innovadora, The AI Scientist enfrenta retos, como errores en la interpretación de resultados y limitaciones en la calidad visual de los documentos generados. Estos problemas subrayan la necesidad de un enfoque cuidadoso para su implementación y mejora futura.

  • LINK: https://sakana.ai/ai-scientist/ 

Hermes 3: El Nuevo Modelo Generalista de Nous Research con Mejoras Significativas

  • Nous Research ha lanzado Hermes 3, la última versión de su serie de modelos de lenguaje generalistas, diseñado para alinearse mejor con las necesidades de los usuarios individuales.

  • Puntos clave:

    1. Variedad de Tamaños y Capacidades Mejoradas: Hermes 3 está disponible en tres tamaños diferentes: 8, 70 y 405 mil millones de parámetros, con mejoras en tareas como roleplaying, coherencia en diálogos de múltiples turnos y ejecución de funciones más fiables.

    2. Filosofía de Alineación con el Usuario: A diferencia de otros modelos, Hermes 3 se enfoca en alinearse con el usuario, minimizando la censura y aumentando la capacidad de personalización, lo que permite una mayor flexibilidad en su uso.

    3. Desempeño y Comparación: Hermes 3 muestra un rendimiento fuerte frente a modelos como Llama-3.1 Instruct, destacando en tareas como razonamiento en niveles por pasos, planificación y uso de monólogos internos.

Google anuncia Imagen 3: Un nuevo estándar en generación de imágenes por IA

  • Google ha lanzado Imagen 3, un modelo de difusión latente diseñado para generar imágenes de alta calidad a partir de descripciones textuales.

  • Puntos clave:

    1. Calidad superior: Imagen 3 ha demostrado ser superior a otros modelos de última generación en la creación de imágenes, según evaluaciones internas.

    2. Ética y responsabilidad: Google ha puesto un énfasis especial en la seguridad y la representación, adoptando medidas para minimizar posibles daños derivados del uso del modelo.

    3. Evaluaciones rigurosas: Se han realizado evaluaciones exhaustivas de la calidad y responsabilidad del modelo para asegurar su eficacia y seguridad.

  • PAPER: https://arxiv.org/pdf/2408.07009

Google presenta Gemini Live

  • Gemini Live es la nueva forma de interactuar a través de voz con Gemini. Ahora puedes mantener una conversación fluida, e incluso interrumpir o cambiar de tema como lo haría en una llamada telefónica normal.

  • Disponible en Android para suscriptores de Gemini Advanced.

  • LINK: https://blog.google/products/gemini/made-by-google-gemini-ai-updates/ 

Robots

Figure 02: El Robot del Futuro

  • Figure, respaldada por OpenAI, ha presentado Figure 02, el robot humanoide más avanzado hasta la fecha, capaz de operar de manera completamente autónoma en una fábrica de BMW. Este robot incorpora varias características técnicas revolucionarias que prometen transformar la robótica humanoide.

    1. Interacción y Razonamiento Avanzado: Gracias a micrófonos y altavoces integrados, junto con modelos de IA personalizados desarrollados con OpenAI, Figure 02 puede mantener conversaciones completas con humanos, facilitando una interacción natural y fluida.

    2. Percepción y Decisiones Visuales: Equipado con un Modelo de Lenguaje Visual (VLM) y seis cámaras RGB que proporcionan una visión de 360 grados, el robot entiende su entorno y toma decisiones rápidas y lógicas, cruciales para su desempeño en entornos complejos como fábricas.

    3. Eficiencia y Autonomía Mejoradas: Con una batería de 2.25 KWh que permite una jornada laboral de 20 horas y una potencia computacional triplicada, Figure 02 puede realizar tareas autónomas de alta complejidad de manera casi ininterrumpida, incrementando su eficiencia operativa.

  • Importancia e Implicaciones

    • La evolución rápida del equipo de Figure, potenciada por la colaboración con OpenAI, representa un hito significativo en la robótica humanoide. Las avanzadas capacidades de interacción, percepción y autonomía de Figure 02 no solo marcan un progreso tecnológico impresionante, sino que también tienen el potencial de revolucionar la manera en que los robots operan en entornos humanos. Este avance sugiere un futuro donde los robots no solo realizarán tareas complejas de manera autónoma, sino que también se adaptarán inteligentemente a sus entornos, abriendo nuevas posibilidades en diversas industrias.

  • LINK: https://www.figure.ai/

Google Deepmind presenta el primer robot que juega al ping pong a nivel humano amateur

Reflexiones Finales

"¡La vida se volverá rara en los próximos 3 años!" - El futuro de la IA, la humanidad y la utopía frente a la distopía | Nick Bostrom

Elon Musk: ¿Construirá AGI la IA de X?