Boletín Semanal Best-IA #83

Aprende IA, día a día.

Tutoriales

TUTORIAL ¡LAS 3 MEJORES IAs de VÍDEO, TEXTO y AUDIO en LOCAL! (ah... y GRATIS)

Noticias

OpenAI Lanza Nuevas Herramientas para Crear Agentes de IA Potentes y Fiables

  • OpenAI acaba de presentar una serie de herramientas diseñadas para facilitar la creación de agentes de IA más flexibles y eficientes. Con la nueva Responses API y el Agents SDK, los desarrolladores ahora tienen mayor control sobre la construcción y despliegue de agentes inteligentes.

  • Novedades Clave

    1. Responses API: Un Nuevo Enfoque para Agentes de IA

      • Mezcla lo mejor de Chat Completions y Assistants en un solo API.

      • Facilita el uso de herramientas como búsqueda web, exploración de archivos y ejecución de tareas en un ordenador con solo unas líneas de código.

    2. Nuevas Capacidades para los Agentes

      • 🔎 Búsqueda web: Respuestas actualizadas con citas integradas.

      • 📄 Búsqueda en archivos: Optimización automática para encontrar información precisa en grandes volúmenes de documentos.

      • 🧑‍💻 Uso de computadoras: Automatización de tareas como pruebas web y entrada de datos, con el mismo modelo CUA detrás de Operator.

    3. Agents SDK: Orquestación de Agentes Inteligentes

      • Mejorando la funcionalidad de Swarm, este SDK open-source permite coordinar múltiples agentes.

      • Tareas automatizadas, herramientas integradas, trazabilidad para depuración y mejores controles de seguridad.

  • Con estas innovaciones, OpenAI acelera el desarrollo de agentes de IA autónomos y eficientes, acercándonos a sistemas más capaces de manejar flujos de trabajo complejos. Esta actualización no solo mejora la usabilidad y escalabilidad, sino que también facilita la integración con herramientas existentes. Actualmente, está disponible en vista previa para desarrolladores en los niveles 3 a 5 de uso. El futuro de la IA autónoma está cada vez más cerca. 🚀

Google

  • Google ha lanzado varias atualizaciones en los últimos días:

    • → Modelos de código abierto Gemma 3

    • → Nuevo Modelos de Embeddings de Texto

    • → Generación nativa de imágenes con Flash 2.0

    • → Agente de análisis de datos en Colab

    • → Comprensión multimodal de videos en YouTube

    • → Gemini integrado con el historial de búsqueda

    • → Deep Research 2.0

    • → Modo IA en el buscador

Gemma 3

  • Google DeepMind acaba de lanzar Gemma 3, una familia de modelos de IA que redefine lo que es posible en términos de rendimiento, eficiencia y accesibilidad. Con soporte para más de 140 idiomas, un contexto de 128k tokens y capacidades multimodales, esta actualización posiciona a Google a la vanguardia de la inteligencia artificial.

  • Lo Más Destacado de Gemma 3

    1. Diferentes tamaños para distintos usos

      • 1B: Modelo ligero para aplicaciones pequeñas.

      • 4B: Equilibrado y con soporte multimodal.

      • 12B: Potente en lenguaje y tareas complejas.

      • 27B: El más avanzado, ideal para aplicaciones sofisticadas.

    2. Eficiencia y velocidad sin precedentes

      • Ejecuta su versión más grande (27B) en una sola GPU, mientras que la competencia necesita hasta 32 GPU para el mismo rendimiento.

      • Diseñado para un uso energético eficiente, sin sacrificar velocidad ni calidad.

    3. Seguridad y personalización avanzadas

      • Mejorado en generación estructurada y llamadas a funciones, facilitando su uso en agentes inteligentes.

      • Seguridad reforzada con pruebas de red-teaming y ShieldGemma 2, un sistema que modera contenido en tiempo real.

  • Gemma 3 no solo establece un nuevo estándar de eficiencia y rendimiento, sino que también refuerza el compromiso de Google con la seguridad en IA. Su accesibilidad para la comunidad académica con $10,000 en créditos en la nube y su disponibilidad en Google AI Studio, Kaggle, Ollama y Hugging Face, lo convierten en una opción potente y adaptable para investigadores y desarrolladores.

Gemini Embedding: El Modelo de Embeddings de Texto Más Potente

  • Google acaba de presentar su nuevo modelo de embeddings basado en Gemini: Gemini-Embedding-Exp-03-07. Este modelo hereda la comprensión del lenguaje y el contexto avanzado de Gemini, superando a su predecesor text-embedding-004 y posicionándose en la cima del ranking MTEB Multilingual con una mejora de +5.81 puntos sobre la competencia.

  • ¿Por qué es relevante?

    1. Rendimiento de vanguardia y flexibilidad

      • Optimizado para múltiples dominios como finanzas, ciencia, derecho y búsqueda de información.

      • Funciona sin necesidad de ajuste fino, lo que lo hace más accesible y fácil de implementar.

    2. Mejoras significativas en embeddings

      • Hasta 8K tokens de entrada, permitiendo procesar grandes bloques de texto o código.

      • Embeddings de 3K dimensiones, aumentando la precisión en aplicaciones de búsqueda y clasificación.

      • Matryoshka Representation Learning (MRL), que permite reducir la dimensionalidad de los embeddings según las necesidades de almacenamiento.

      • Más de 100 idiomas soportados, duplicando la cobertura de modelos anteriores.

    3. Aplicaciones clave de embeddings

      • 📂 Recuperación eficiente: Búsqueda avanzada en bases de datos extensas (ej. documentos legales, archivos empresariales).

      • 🧠 RAG (Retrieval-Augmented Generation): Mejora la generación de texto incorporando información relevante en tiempo real.

      • 🏷️ Clasificación y clustering: Agrupa contenido similar y facilita tareas como análisis de sentimientos o detección de spam.

      • 🔍 Similitud de texto: Detecta contenido duplicado, útil para deduplicación web y detección de plagio.

  • Gemini Embedding no solo eleva los estándares de calidad en representación semántica de texto, sino que también impulsa aplicaciones más eficientes y precisas en búsqueda, generación y análisis de información. Con mayor capacidad, compatibilidad y eficiencia, este modelo representa un salto adelante en el procesamiento del lenguaje natural.

Más noticias de Google

  • Generación nativa de imágenes con Flash 2.0: Google ha ampliado el acceso a la generación nativa de imágenes en Gemini 2.0 Flash, permitiendo la edición de imágenes a través de un diálogo en lenguaje natural.

  • Comprensión multimodal de videos en YouTube: Los usuarios de Google AI Studio y la Gemini API, ahora pueden incorporar videos de YouTube de manera directa, utilizando únicamente sus enlaces. Esta nueva función te permite chatear con Gemini sobre un video a dándole simplemente el enlace, sin necesidad de pasos adicionales.

  • Deep Research 2.0: Google ha actualizado su herramienta Deep Research, haciéndola más potente y accesible para todos, con capacidades de "autorreflexión" y análisis profundo.

  • Modo IA en el buscador: Google ha lanzado un nuevo "Modo IA" en su buscador, que sintetiza información de múltiples fuentes para responder a consultas complejas, lo que ha generado preocupación entre los editores de noticias.

  • Agente de análisis de datos en Colab: Google Labs ha lanzado el Data Science Agent, una herramienta que automatiza procesos de análisis de datos en Google Colab, ayudando a los usuarios a reducir tiempos de investigación y análisis.

  • Gemini integrado con el historial de búsqueda: Gemini 2.0 Flash ahora puede utilizar el historial de búsqueda de los usuarios para ofrecer respuestas más personalizadas, aunque esta función es experimental y requiere opt-in.

ERNIE 4.5 y ERNIE X1: Baidu Revienta los Precios de la IA

  • Baidu ha lanzado ERNIE 4.5 y ERNIE X1, dos modelos que no solo compiten con OpenAI y DeepSeek, sino que lo hacen a precios ridículamente bajos. Si el coste de la IA te preocupaba, Baidu acaba de cambiar las reglas del juego.

  • Tres Aspectos Clave

    • ERNIE 4.5: Un Multimodal Ultra Barato

      • Supera a GPT-4.5 en múltiples benchmarks.

      • ¡Precio 100 veces menor!

        • GPT-4.5: $75 por millón de tokens de entrada / $150 por millón de salida.

        • ERNIE 4.5: $0.55 por millón de tokens de entrada / $2.20 por millón de salida.

      • Procesa texto, imágenes, documentos y audio.

    • ERNIE X1: Razonamiento Profundo a Mitad de Precio

      • Compite con DeepSeek R1 en capacidades multimodales.

      • Acepta texto e imágenes como entrada.

      • Cuesta la mitad que su competencia directa.

    • Funciones Avanzadas a Precio de Risa

      • ERNIE 4.5 analiza documentos y resuelve problemas visuales.

      • ERNIE X1 mantiene un rendimiento de alto nivel a costo reducido.

  • Baidu está tirando la casa por la ventana y haciendo que modelos como GPT-4.5 o DeepSeek R1 sean opciones de lujo. Si necesitas IA multimodal potente y barata, ERNIE 4.5 y X1 pueden ser las mejores alternativas del mercado. ¿Se viene una guerra de precios en la IA? Parece que sí.

Reka Flash 3: Un Modelo Compacto y Ágil para Razonamiento y Código

  • Reka AI ha abierto al público un adelanto de Reka Flash 3, su nuevo modelo de 21.000 millones de parámetros. Diseñado para tareas de chat, codificación, seguimiento de instrucciones y llamadas a funciones, este modelo logra un equilibrio óptimo entre rendimiento y eficiencia, destacando frente a competidores como OpenAI o1-mini.

  • Tres Aspectos Clave

    • Ligero y Rápido, Ideal para Implementaciones Locales

      • 35% menos parámetros que QwQ-32B, con solo 39GB en fp16 y posibilidad de compresión a 11GB sin pérdida significativa.

      • Soporta despliegues en dispositivos locales y aplicaciones de baja latencia.

    • Mejoras en Razonamiento y Entrenamiento

      • Preentrenado en datos públicos y sintéticos con ajuste fino en instrucciones de alta calidad.

      • Usa Reinforcement Learning con RLOO y recompensas basadas en reglas y modelos para mejorar el razonamiento.

      • Nueva función de "budget forcing" para limitar su tiempo de pensamiento sin perder calidad en las respuestas.

    • Limitaciones y Enfoque en Inglés

      • No es ideal para tareas intensivas en conocimiento, con un MMLU-Pro de 65.0.

      • Soporta múltiples idiomas, pero piensa en inglés internamente, lo que puede afectar la precisión en otros idiomas.

      • No tiene alineamiento ni entrenamiento de personalidad extensivo, lo que lo hace más flexible para personalización.

  • Reka Flash 3 es un modelo ligero, accesible y open-source bajo licencia Apache 2.0, lo que lo convierte en una opción atractiva para desarrolladores e investigadores. Su combinación de bajo consumo de memoria, velocidad y capacidad de razonamiento lo posiciona como una excelente base para construir aplicaciones especializadas sin depender de infraestructuras masivas.

  • 📌 Si buscas un modelo eficiente para IA en dispositivos locales o con restricciones de latencia, Reka Flash 3 es una opción a considerar.

  • FUENTE: https://www.reka.ai/news/introducing-reka-flash

Hunyuan-TurboS: El Modelo de Tencent que Supera a GPT-4o

  • Tencent ha lanzado Hunyuan-TurboS, un modelo de IA híbrido que promete dejar atrás a GPT-4o, DeepSeek-V3 y otras opciones open-source en tareas matemáticas y de razonamiento. Con un enfoque Transformer-Mamba MoE (Mixture of Experts), este nuevo modelo optimiza costos y rendimiento.

  • Tres Claves

    • Mejor Manejo de Secuencias Largas

      • Fusiona la eficiencia de Mamba para secuencias largas con la capacidad contextual del Transformer.

      • Evita los problemas de O(N²) en entrenamiento e inferencia, reduciendo la necesidad de KV-Cache.

    • Mayor Precisión en Matemáticas y Razonamiento

      • Supera a GPT-4o-0806 y DeepSeek-V3 en tareas de matemáticas, alineación y razonamiento.

      • Ofrece costos de inferencia un 85% más bajos que su versión anterior, Hunyuan Turbo.

    • Optimización de Post-Entrenamiento

      • Integración de "pensamiento lento" para mejorar cálculos, código y razonamiento.

      • Tuning de instrucciones refinado para mejorar alineación y ejecución de agentes.

      • Sistema de recompensas avanzado con verificación de consistencia y feedback basado en sandbox para mejorar precisión en STEM.

  • Hunyuan-TurboS no sólo mejora en tareas complejas, sino que también reduce costos operativos, haciéndolo más eficiente para aplicaciones comerciales y de investigación. Con su combinación de Mamba y Transformer, marca un nuevo estándar en la evolución de modelos de IA rápidos, precisos y escalables.

Robots

Gemini Robotics, dos modelos fundacionales de Google Deepmind para el razonamiento incorporado en robots

  • Google Deepmind ha presentado dos modelos fundacionales para el razonamiento incorporado en robots, lo que permite a los robots comprender, reaccionar y tomar acciones en el mundo físico:

    • Gemini Robotics: construido en Gemini 2.0. Integra visión, lenguaje y acción para la destreza del mundo real.

    • Gemini Robotics-ER: mejora el razonamiento espacial para el control robótico avanzado. Están trabajando con Apptronik para desarrollar la próxima generación de robots humanoides.

  • Gemini Robotics aprovecha la comprensión del mundo de Gemini para generalizar a situaciones novedosas y resolver una amplia variedad de tareas fuera de la caja, incluidas tareas que nunca ha visto antes en el entrenamiento.

Reflexiones Finales

AGI IS COMING : Y el gobierno lo sabe