- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #83
Boletín Semanal Best-IA #83
Aprende IA, día a día.
Tutoriales
TUTORIAL ¡LAS 3 MEJORES IAs de VÍDEO, TEXTO y AUDIO en LOCAL! (ah... y GRATIS)
Noticias
OpenAI Lanza Nuevas Herramientas para Crear Agentes de IA Potentes y Fiables
OpenAI acaba de presentar una serie de herramientas diseñadas para facilitar la creación de agentes de IA más flexibles y eficientes. Con la nueva Responses API y el Agents SDK, los desarrolladores ahora tienen mayor control sobre la construcción y despliegue de agentes inteligentes.
Novedades Clave
Responses API: Un Nuevo Enfoque para Agentes de IA
Mezcla lo mejor de Chat Completions y Assistants en un solo API.
Facilita el uso de herramientas como búsqueda web, exploración de archivos y ejecución de tareas en un ordenador con solo unas líneas de código.
Nuevas Capacidades para los Agentes
🔎 Búsqueda web: Respuestas actualizadas con citas integradas.
📄 Búsqueda en archivos: Optimización automática para encontrar información precisa en grandes volúmenes de documentos.
🧑💻 Uso de computadoras: Automatización de tareas como pruebas web y entrada de datos, con el mismo modelo CUA detrás de Operator.
Agents SDK: Orquestación de Agentes Inteligentes
Mejorando la funcionalidad de Swarm, este SDK open-source permite coordinar múltiples agentes.
Tareas automatizadas, herramientas integradas, trazabilidad para depuración y mejores controles de seguridad.
Con estas innovaciones, OpenAI acelera el desarrollo de agentes de IA autónomos y eficientes, acercándonos a sistemas más capaces de manejar flujos de trabajo complejos. Esta actualización no solo mejora la usabilidad y escalabilidad, sino que también facilita la integración con herramientas existentes. Actualmente, está disponible en vista previa para desarrolladores en los niveles 3 a 5 de uso. El futuro de la IA autónoma está cada vez más cerca. 🚀
We're launching new tools to help developers build reliable and powerful AI agents. 🤖🔧
Timestamps:
01:54 Web search
02:41 File search
03:22 Computer use
04:07 Responses API
10:17 Agents SDK— OpenAI Developers (@OpenAIDevs)
6:41 PM • Mar 11, 2025
Google ha lanzado varias atualizaciones en los últimos días:
→ Modelos de código abierto Gemma 3
→ Nuevo Modelos de Embeddings de Texto
→ Generación nativa de imágenes con Flash 2.0
→ Agente de análisis de datos en Colab
→ Comprensión multimodal de videos en YouTube
→ Gemini integrado con el historial de búsqueda
→ Deep Research 2.0
→ Modo IA en el buscador
Gemma 3
Google DeepMind acaba de lanzar Gemma 3, una familia de modelos de IA que redefine lo que es posible en términos de rendimiento, eficiencia y accesibilidad. Con soporte para más de 140 idiomas, un contexto de 128k tokens y capacidades multimodales, esta actualización posiciona a Google a la vanguardia de la inteligencia artificial.
Lo Más Destacado de Gemma 3
Diferentes tamaños para distintos usos
1B: Modelo ligero para aplicaciones pequeñas.
4B: Equilibrado y con soporte multimodal.
12B: Potente en lenguaje y tareas complejas.
27B: El más avanzado, ideal para aplicaciones sofisticadas.
Eficiencia y velocidad sin precedentes
Ejecuta su versión más grande (27B) en una sola GPU, mientras que la competencia necesita hasta 32 GPU para el mismo rendimiento.
Diseñado para un uso energético eficiente, sin sacrificar velocidad ni calidad.
Seguridad y personalización avanzadas
Mejorado en generación estructurada y llamadas a funciones, facilitando su uso en agentes inteligentes.
Seguridad reforzada con pruebas de red-teaming y ShieldGemma 2, un sistema que modera contenido en tiempo real.
Gemma 3 no solo establece un nuevo estándar de eficiencia y rendimiento, sino que también refuerza el compromiso de Google con la seguridad en IA. Su accesibilidad para la comunidad académica con $10,000 en créditos en la nube y su disponibilidad en Google AI Studio, Kaggle, Ollama y Hugging Face, lo convierten en una opción potente y adaptable para investigadores y desarrolladores.

Gemini Embedding: El Modelo de Embeddings de Texto Más Potente
Google acaba de presentar su nuevo modelo de embeddings basado en Gemini: Gemini-Embedding-Exp-03-07. Este modelo hereda la comprensión del lenguaje y el contexto avanzado de Gemini, superando a su predecesor text-embedding-004 y posicionándose en la cima del ranking MTEB Multilingual con una mejora de +5.81 puntos sobre la competencia.
¿Por qué es relevante?
Rendimiento de vanguardia y flexibilidad
Optimizado para múltiples dominios como finanzas, ciencia, derecho y búsqueda de información.
Funciona sin necesidad de ajuste fino, lo que lo hace más accesible y fácil de implementar.
Mejoras significativas en embeddings
Hasta 8K tokens de entrada, permitiendo procesar grandes bloques de texto o código.
Embeddings de 3K dimensiones, aumentando la precisión en aplicaciones de búsqueda y clasificación.
Matryoshka Representation Learning (MRL), que permite reducir la dimensionalidad de los embeddings según las necesidades de almacenamiento.
Más de 100 idiomas soportados, duplicando la cobertura de modelos anteriores.
Aplicaciones clave de embeddings
📂 Recuperación eficiente: Búsqueda avanzada en bases de datos extensas (ej. documentos legales, archivos empresariales).
🧠 RAG (Retrieval-Augmented Generation): Mejora la generación de texto incorporando información relevante en tiempo real.
🏷️ Clasificación y clustering: Agrupa contenido similar y facilita tareas como análisis de sentimientos o detección de spam.
🔍 Similitud de texto: Detecta contenido duplicado, útil para deduplicación web y detección de plagio.
Gemini Embedding no solo eleva los estándares de calidad en representación semántica de texto, sino que también impulsa aplicaciones más eficientes y precisas en búsqueda, generación y análisis de información. Con mayor capacidad, compatibilidad y eficiencia, este modelo representa un salto adelante en el procesamiento del lenguaje natural.

Más noticias de Google
Generación nativa de imágenes con Flash 2.0: Google ha ampliado el acceso a la generación nativa de imágenes en Gemini 2.0 Flash, permitiendo la edición de imágenes a través de un diálogo en lenguaje natural.
Comprensión multimodal de videos en YouTube: Los usuarios de Google AI Studio y la Gemini API, ahora pueden incorporar videos de YouTube de manera directa, utilizando únicamente sus enlaces. Esta nueva función te permite chatear con Gemini sobre un video a dándole simplemente el enlace, sin necesidad de pasos adicionales.
Google is cooking so hard 🔥🔥
AI Studio now support YT link— AshutoshShrivastava (@ai_for_success)
8:07 PM • Mar 12, 2025
Deep Research 2.0: Google ha actualizado su herramienta Deep Research, haciéndola más potente y accesible para todos, con capacidades de "autorreflexión" y análisis profundo.
Modo IA en el buscador: Google ha lanzado un nuevo "Modo IA" en su buscador, que sintetiza información de múltiples fuentes para responder a consultas complejas, lo que ha generado preocupación entre los editores de noticias.
Agente de análisis de datos en Colab: Google Labs ha lanzado el Data Science Agent, una herramienta que automatiza procesos de análisis de datos en Google Colab, ayudando a los usuarios a reducir tiempos de investigación y análisis.
Gemini integrado con el historial de búsqueda: Gemini 2.0 Flash ahora puede utilizar el historial de búsqueda de los usuarios para ofrecer respuestas más personalizadas, aunque esta función es experimental y requiere opt-in.
ERNIE 4.5 y ERNIE X1: Baidu Revienta los Precios de la IA
Baidu ha lanzado ERNIE 4.5 y ERNIE X1, dos modelos que no solo compiten con OpenAI y DeepSeek, sino que lo hacen a precios ridículamente bajos. Si el coste de la IA te preocupaba, Baidu acaba de cambiar las reglas del juego.
Tres Aspectos Clave
ERNIE 4.5: Un Multimodal Ultra Barato
Supera a GPT-4.5 en múltiples benchmarks.
¡Precio 100 veces menor!
GPT-4.5: $75 por millón de tokens de entrada / $150 por millón de salida.
ERNIE 4.5: $0.55 por millón de tokens de entrada / $2.20 por millón de salida.
Procesa texto, imágenes, documentos y audio.
ERNIE X1: Razonamiento Profundo a Mitad de Precio
Compite con DeepSeek R1 en capacidades multimodales.
Acepta texto e imágenes como entrada.
Cuesta la mitad que su competencia directa.
Funciones Avanzadas a Precio de Risa
ERNIE 4.5 analiza documentos y resuelve problemas visuales.
ERNIE X1 mantiene un rendimiento de alto nivel a costo reducido.
Baidu está tirando la casa por la ventana y haciendo que modelos como GPT-4.5 o DeepSeek R1 sean opciones de lujo. Si necesitas IA multimodal potente y barata, ERNIE 4.5 y X1 pueden ser las mejores alternativas del mercado. ¿Se viene una guerra de precios en la IA? Parece que sí.
We've just unveiled ERNIE 4.5 & X1! 🚀
As a deep-thinking reasoning model with multimodal capabilities, ERNIE X1 delivers performance on par with DeepSeek R1 at only half the price. Meanwhile, ERNIE 4.5 is our latest foundation model and new-generation native multimodal model.… x.com/i/web/status/1…
— Baidu Inc. (@Baidu_Inc)
1:53 AM • Mar 16, 2025
Reka Flash 3: Un Modelo Compacto y Ágil para Razonamiento y Código
Reka AI ha abierto al público un adelanto de Reka Flash 3, su nuevo modelo de 21.000 millones de parámetros. Diseñado para tareas de chat, codificación, seguimiento de instrucciones y llamadas a funciones, este modelo logra un equilibrio óptimo entre rendimiento y eficiencia, destacando frente a competidores como OpenAI o1-mini.
Tres Aspectos Clave
Ligero y Rápido, Ideal para Implementaciones Locales
35% menos parámetros que QwQ-32B, con solo 39GB en fp16 y posibilidad de compresión a 11GB sin pérdida significativa.
Soporta despliegues en dispositivos locales y aplicaciones de baja latencia.
Mejoras en Razonamiento y Entrenamiento
Preentrenado en datos públicos y sintéticos con ajuste fino en instrucciones de alta calidad.
Usa Reinforcement Learning con RLOO y recompensas basadas en reglas y modelos para mejorar el razonamiento.
Nueva función de "budget forcing" para limitar su tiempo de pensamiento sin perder calidad en las respuestas.
Limitaciones y Enfoque en Inglés
No es ideal para tareas intensivas en conocimiento, con un MMLU-Pro de 65.0.
Soporta múltiples idiomas, pero piensa en inglés internamente, lo que puede afectar la precisión en otros idiomas.
No tiene alineamiento ni entrenamiento de personalidad extensivo, lo que lo hace más flexible para personalización.
Reka Flash 3 es un modelo ligero, accesible y open-source bajo licencia Apache 2.0, lo que lo convierte en una opción atractiva para desarrolladores e investigadores. Su combinación de bajo consumo de memoria, velocidad y capacidad de razonamiento lo posiciona como una excelente base para construir aplicaciones especializadas sin depender de infraestructuras masivas.
📌 Si buscas un modelo eficiente para IA en dispositivos locales o con restricciones de latencia, Reka Flash 3 es una opción a considerar.
Hunyuan-TurboS: El Modelo de Tencent que Supera a GPT-4o
Tencent ha lanzado Hunyuan-TurboS, un modelo de IA híbrido que promete dejar atrás a GPT-4o, DeepSeek-V3 y otras opciones open-source en tareas matemáticas y de razonamiento. Con un enfoque Transformer-Mamba MoE (Mixture of Experts), este nuevo modelo optimiza costos y rendimiento.
Tres Claves
Mejor Manejo de Secuencias Largas
Fusiona la eficiencia de Mamba para secuencias largas con la capacidad contextual del Transformer.
Evita los problemas de O(N²) en entrenamiento e inferencia, reduciendo la necesidad de KV-Cache.
Mayor Precisión en Matemáticas y Razonamiento
Supera a GPT-4o-0806 y DeepSeek-V3 en tareas de matemáticas, alineación y razonamiento.
Ofrece costos de inferencia un 85% más bajos que su versión anterior, Hunyuan Turbo.
Optimización de Post-Entrenamiento
Integración de "pensamiento lento" para mejorar cálculos, código y razonamiento.
Tuning de instrucciones refinado para mejorar alineación y ejecución de agentes.
Sistema de recompensas avanzado con verificación de consistencia y feedback basado en sandbox para mejorar precisión en STEM.
Hunyuan-TurboS no sólo mejora en tareas complejas, sino que también reduce costos operativos, haciéndolo más eficiente para aplicaciones comerciales y de investigación. Con su combinación de Mamba y Transformer, marca un nuevo estándar en la evolución de modelos de IA rápidos, precisos y escalables.
🚀 Introducing Hunyuan-TurboS – the first ultra-large Hybrid-Transformer-Mamba MoE model!
Traditional pure Transformer models struggle with long-text training and inference due to O(N²) complexity and KV-Cache issues. Hunyuan-TurboS combines:
✅ Mamba's efficient long-sequence… x.com/i/web/status/1…— Hunyuan (@TXhunyuan)
2:31 PM • Mar 10, 2025
Robots
Gemini Robotics, dos modelos fundacionales de Google Deepmind para el razonamiento incorporado en robots
Google Deepmind ha presentado dos modelos fundacionales para el razonamiento incorporado en robots, lo que permite a los robots comprender, reaccionar y tomar acciones en el mundo físico:
Gemini Robotics: construido en Gemini 2.0. Integra visión, lenguaje y acción para la destreza del mundo real.
Gemini Robotics-ER: mejora el razonamiento espacial para el control robótico avanzado. Están trabajando con Apptronik para desarrollar la próxima generación de robots humanoides.
Gemini Robotics aprovecha la comprensión del mundo de Gemini para generalizar a situaciones novedosas y resolver una amplia variedad de tareas fuera de la caja, incluidas tareas que nunca ha visto antes en el entrenamiento.