- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #90
Boletín Semanal Best-IA #90
Aprende IA, día a día.
Tutoriales
Gemini GRATIS + Agente IA 🚀 Crea APPS inteligentes
Curso Notebook LM + Gemini 2.5 Pro
Noticias
Alibaba Qwen
Qwen3: nueva familia de modelos IA abierta y multilingüe de hasta 235 B de parámetros
Alibaba ha presentado Qwen3, una generación de ocho modelos—seis densos y dos Mixture-of-Experts—que abarca desde 0,6 B hasta 235 B de parámetros y promete rendimiento de primera línea en código, matemáticas y tareas generales.
Puntos clave
Amplia gama y potencia
El buque insignia Qwen3-235B-A22B rivaliza en benchmarks con DeepSeek-R1, o1, o3-mini, Grok-3 y Gemini-2.5-Pro; el pequeño MoE Qwen3-30B-A3B supera al QwQ-32B activando solo una décima parte de sus parámetros.Código abierto y despliegue flexible
Pesos y checkpoints están disponibles en GitHub, Hugging Face y ModelScope. Para producción se recomiendan SGLang o vLLM; para local, Ollama, LMStudio, MLX, llama.cpp y KTransformers.Cobertura de 119 idiomas
El soporte multilingüe extiende su utilidad a productos globales y a comunidades con recursos limitados.Optimización para agentes y programación
Mejoras específicas en razonamiento sobre código y entornos interactivos, con resultados destacados (34,4 % en Swebench-verified) pese a usar menos parámetros que competidores.Escalabilidad coste-rendimiento
La arquitectura ofrece incrementos suaves conforme al presupuesto computacional, permitiendo ajustar calidad e inversión con facilidad.

Qwen2.5-Omni-3B
Qwen también ha lanzado esta semana Qwen2.5-Omni-3B, un modelo multimodal ultraligero que cabe en tu GPU doméstica:
Reduce el uso de VRAM en más de 50 % frente al 7B, procesando contextos de ~25 k tokens.
Gestiona 30 s de audio-video en una tarjeta de consumo de 24 GB.
Conserva +90 % de la capacidad de comprensión y la naturalidad de voz del 7B.
DeepSeek-Prover-V2: un salto en la demostración formal con IA
DeepSeek-Prover-V2 es un modelo de código abierto especializado en demostrar teoremas en Lean 4. Combina el razonamiento informal de un LLM con la precisión de las pruebas formales mediante un pipeline de subobjetivos y aprendizaje por refuerzo, logrando resultados punteros en benchmarks académicos.
Puntos clave
Dataset “cold-start” recursivo: DeepSeek-V3 descompone cada teorema en subobjetivos, formaliza los pasos en Lean 4 y genera datos de razonamiento paso a paso que sirven de arranque para el entrenamiento.
Aprendizaje por refuerzo: Tras la fase inicial, el modelo se refina con feedback binario (prueba correcta o no) para alinear la generación de cadenas de razonamiento con pruebas válidas.
Rendimiento SOTA: La versión de 671 B parámetros alcanza un 88,9 % de aciertos en MiniF2F-test y resuelve 49/658 problemas de PutnamBench, superando modelos previos.
Benchmark ProverBench: Se publican 325 problemas formalizados (AIME, libros y tutoriales) que amplían la evaluación a contextos de competición y grado universitario.
El avance de DeepSeek-Prover-V2 marca un hito en la convergencia entre el razonamiento informal propio de los grandes modelos de lenguaje y la rigurosidad de los asistentes de prueba formales. Al automatizar la descomposición de lemas y reforzar la generación de pruebas, la IA no sólo acelera la validación de resultados matemáticos, sino que abre la puerta a nuevos flujos de trabajo científicos: desde la verificación de algoritmos hasta el diseño de hardware, pasando por la docencia. Si estos sistemas siguen mejorando, el coste de producir demostraciones fiables caerá drásticamente, impulsando estándares más altos de seguridad y reproducibilidad en ingeniería, software y ciencia pura.

Xiaomi sorprende con MiMo-7B: un modelo pequeño que razona como uno grande
Xiaomi ha lanzado MiMo-7B, un modelo de lenguaje de sólo 7 mil millones de parámetros que desafía a los gigantes de 32B en tareas complejas de razonamiento, matemáticas y código. Su diseño y entrenamiento lo convierten en uno de los modelos más eficientes y precisos en su categoría.
Puntos clave:
Diseñado para razonar, no sólo generar texto
MiMo-7B se entrena desde cero con una arquitectura enfocada explícitamente en matemáticas y programación, usando una mezcla de datos en tres fases, con un 70% de la segunda etapa dedicada a estas áreas.Técnicas innovadoras de preentrenamiento
Mejora la extracción de datos STEM desde HTML y PDFs, utiliza IA para generar datos sintéticos complejos y añade el objetivo de Multi-Token Prediction para acelerar la inferencia y mejorar la precisión.Resultados sorprendentes en benchmarks
MiMo-7B-Base supera ampliamente a otros modelos de tamaño similar (como Qwen2.5 o Llama 3.1) en pruebas como BBH, AIME24 y LiveCodeBench, incluso batiendo a modelos de 32B en tareas centradas en razonamiento.Refuerzo inteligente con datos difíciles
Su versión RL emplea recompensas ajustadas a la dificultad del test y reentrenamiento con datos “fáciles”, logrando una estabilidad y rendimiento superiores. Llega más lejos cuando parte del modelo fine-tuned que desde cero.Velocidad y eficiencia sin sacrificar calidad
La infraestructura optimizada (Seamless Rollout Engine) y técnicas como el speculative decoding permiten duplicar la velocidad de entrenamiento y lograr una tasa de aceptación de más del 90% en inferencias.

MiMo-7B demuestra que no se necesita un modelo gigantesco para lograr razonamiento avanzado. Este avance allana el camino hacia modelos más accesibles, sostenibles y especializados, capaces de resolver problemas complejos sin requerir infraestructura masiva.
Amazon Nova Premier: el nuevo modelo estrella de AWS para tareas complejas y distilación inteligente
AWS ha lanzado oficialmente Amazon Nova Premier, el modelo más potente de su familia de modelos fundacionales. Disponible a través de Amazon Bedrock, está diseñado para resolver tareas complejas, coordinar flujos de trabajo multiagente y servir como modelo maestro en procesos de distilación hacia versiones más ligeras y eficientes.
Puntos clave:
Potencia multimodal y contexto extremo
Nova Premier entiende texto, imágenes y vídeo (sin audio) y trabaja con contextos de hasta un millón de tokens, permitiéndole analizar documentos largos, bases de código extensas y situaciones con múltiples variables y pasos.Optimizado para tareas complejas
El modelo se desempeña con excelencia en planificación multietapa, uso de herramientas y combinación de datos. Supera a otros modelos de su misma categoría en 17 benchmarks de inteligencia textual, visual y flujos de trabajo agentivos.Destilación de modelos: alto rendimiento a bajo coste
Nova Premier puede transferir su capacidad a modelos más ligeros como Nova Micro o Pro mediante model distillation. Esto permite crear versiones personalizadas más rápidas y baratas que conservan gran parte de la inteligencia del modelo original.Accesibilidad y despliegue eficiente
Nova Premier ya está disponible en varias regiones de AWS y permite integración rápida desde la consola de Amazon Bedrock. Cuenta con controles de seguridad integrados y opciones de pago por uso.
Amazon Nova Premier marca un nuevo estándar en modelos fundacionales al combinar razonamiento avanzado, eficiencia y adaptabilidad. Su uso como modelo maestro para destilación permite democratizar el acceso a capacidades de alta inteligencia sin requerir modelos gigantes. Esto habilita el desarrollo de aplicaciones productivas y rentables, especialmente en entornos empresariales donde se priorizan velocidad, coste y personalización.
🚀 Amazon Nova Premier, our most capable teacher model for creating custom distilled models, is now available on Amazon Bedrock!
Built for complex tasks like Retrieval-Augmented Generation (RAG), function calling, and agentic coding, its one-million-token context window enables
— Amazon Science (@AmazonScience)
12:29 AM • May 1, 2025
FutureHouse lanza AI Scientist: agentes superhumanos para acelerar la investigación científica
La plataforma FutureHouse ha hecho público el lanzamiento de AI Scientist, un conjunto de agentes de inteligencia artificial especializados en tareas científicas. Capaces de superar el rendimiento humano en varios ámbitos, estos agentes marcan un hito en la automatización del trabajo de investigación.
Puntos clave:
Cuatro agentes con habilidades únicas
Crow: agente general para tareas científicas amplias.
Falcon: experto en revisiones bibliográficas automáticas.
Owl: diseñado para responder si “alguien ya ha hecho X antes”.
Phoenix: experimental, orientado a planificar experimentos en química (menos fiable, pero con acceso a múltiples herramientas científicas).
Rendimiento superhumano y corpus completo
Crow, Falcon y Owl superan a humanos en benchmarks específicos y acceden a textos científicos completos (no solo resúmenes), permitiendo respuestas más profundas sobre protocolos, limitaciones y evidencias.Filtrado de calidad y acceso vía API
Los agentes priorizan fuentes científicas rigurosas, evitando papers dudosos o divulgación superficial. Además, pueden integrarse en flujos de trabajo mediante una API pública.Aceleración de hipótesis y planificación experimental
Aunque aún no pueden sustituir todo el proceso científico, los agentes ya son útiles para formular hipótesis, evaluar estudios y proponer experimentos de forma mucho más rápida que los métodos tradicionales.Próximos lanzamientos y acceso gratuito
La plataforma incluirá próximamente agentes dedicados a análisis de datos, ingeniería de proteínas y más. Actualmente es gratuita, con opción de solicitar acceso ampliado para proyectos de investigación.
AI Scientist representa un paso decisivo hacia la colaboración entre IA y ciencia. Al automatizar partes clave del trabajo de escritorio —como búsquedas bibliográficas, evaluación de hipótesis y diseño experimental— estos agentes pueden liberar tiempo y acelerar el descubrimiento científico. El acceso abierto y las posibilidades de integración auguran una adopción rápida en laboratorios, universidades y centros de investigación.
Today, we are launching the first publicly available AI Scientist, via the FutureHouse Platform.
Our AI Scientist agents can perform a wide variety of scientific tasks better than humans. By chaining them together, we've already started to discover new biology really fast. With
— Sam Rodriques (@SGRodriques)
3:14 PM • May 1, 2025
Claude lanza Integrations: ahora puede conectarse a tus apps y hacer investigaciones profundas con contexto real
Anthropic ha presentado Integrations, una nueva función que permite conectar Claude con tus herramientas favoritas, potenciando su capacidad para colaborar, ejecutar tareas y realizar investigaciones avanzadas con datos reales. También se amplía el acceso global a la búsqueda web para usuarios de planes pagos y se mejora el modo Research.
Puntos clave:
Integrations: Claude se conecta a tus herramientas de trabajo
Claude ahora puede enlazarse con servicios como Jira, Asana, Zapier, Intercom, PayPal, Sentry o Linear, obteniendo contexto de tus proyectos y automatizando tareas directamente desde la conversación.Modelo Context Protocol (MCP) expandido
Hasta ahora limitado a entornos locales, el protocolo MCP ahora admite servidores remotos, permitiendo que desarrolladores creen y publiquen integraciones en menos de 30 minutos.Investigación avanzada con acceso contextual
Claude puede investigar durante hasta 45 minutos, descomponiendo preguntas complejas y buscando respuestas en la web, Google Workspace o cualquier app integrada, todo con citas claras a las fuentes originales.Casos de uso reales que multiplican la productividad
Con Zapier: Claude automatiza flujos entre miles de apps (p. ej., resúmenes de reuniones con datos de HubSpot).
Con Jira y Confluence: puede crear y organizar tareas o documentación técnica.
Con Intercom: ayuda a analizar conversaciones de usuarios, identificar patrones y registrar bugs automáticamente.
Disponible desde ya en planes pagos
Integrations y la investigación avanzada están en beta para los planes Max, Team y Enterprise (pronto en Pro), y la búsqueda web ya está disponible globalmente para todos los usuarios pagos.
Estas mejoras convierten a Claude en algo más que un asistente conversacional: lo posicionan como un colaborador real, capaz de actuar sobre datos vivos de tus herramientas de trabajo, automatizar tareas rutinarias e investigar con rigor y trazabilidad. Esto supone un paso firme hacia agentes de IA prácticos, conectados y útiles para profesionales y equipos de cualquier sector.
Phi-4: los modelos pequeños de Microsoft que desafían a los gigantes de la IA en razonamiento
Un año después del lanzamiento de los primeros modelos Phi, Microsoft presenta la nueva generación de Small Language Models (SLMs) con capacidades de razonamiento avanzado. Phi-4-reasoning, Phi-4-reasoning-plus y Phi-4-mini-reasoning redefinen los límites del rendimiento en modelos compactos, con resultados que rivalizan con sistemas mucho más grandes.
Puntos clave:
Phi-4-reasoning: razonamiento potente con solo 14B de parámetros
Entrenado con datos sintéticos y ejemplos cuidadosamente seleccionados, Phi-4-reasoning demuestra un rendimiento sobresaliente en tareas matemáticas y científicas. Supera modelos como o1-mini y DeepSeek-R1-Distill-70B en múltiples benchmarks de razonamiento.Phi-4-reasoning-plus: más tokens, más precisión
Esta versión añade refuerzo por aprendizaje (RL) y utiliza 1.5 veces más tokens en inferencia, lo que mejora la precisión en tareas complejas sin aumentar el tamaño del modelo.Phi-4-mini-reasoning: inteligencia matemática en solo 3.8B
Optimizado para dispositivos con recursos limitados, este modelo logra resolver problemas matemáticos paso a paso a nivel de doctorado, superando a modelos más grandes como Llama-3.2-3B o Qwen-7B en pruebas especializadas.Integración con Windows y Copilot+ PCs
Los modelos Phi están diseñados para funcionar de forma local y eficiente en CPUs, GPUs y NPUs. El modelo Phi Silica, por ejemplo, está integrado en herramientas como Outlook o funciones del sistema como "Click to Do", ofreciendo respuestas rápidas y eficientes sin conexión.Desarrollo responsable y seguridad integrada
Microsoft aplica principios de IA responsable en todos sus modelos Phi, incorporando técnicas como SFT, DPO y RLHF para mejorar la utilidad y mitigar riesgos. Cada modelo incluye documentación específica sobre seguridad y limitaciones.
La serie Phi-4 demuestra que el futuro de la IA no depende solo de modelos gigantescos. Con buen diseño, datos de calidad y entrenamientos inteligentes, los SLMs pueden ofrecer un rendimiento comparable al de sistemas mucho más grandes y costosos.
LINK: https://azure.microsoft.com/en-us/blog/one-year-of-phi-small-language-models-making-big-leaps-in-ai/
En breve
NotebookLM ahora puede crear podcasts en español y otros 50 lenguajes, y además utiliza Gemini 2.5 Flash, mejorando su capacidad de razonar y proporcionar respuestas más detalladas y precisas, especialmente en tareas complejas que requieren varios pasos de razonamiento. Ideal para estudiantes, investigadores o cualquier persona que prefiera escuchar en lugar de leer.
Puedes cambiar el “Idioma de salida” en “Configuración”.
OpenAI ha lanzado dos actualizaciones importantes:
Se revierte la actualización de abril de ChatGPT, en la que se aumentó su tendencia a ser sumisamente complaciente, generando riesgos de salud mental y dependencia.
Mejoras en la búsqueda de ChatGPT, incluyendo una experiencia de compra más sencilla con resultados visuales, precios y reseñas, y enlaces directos para comprar, sin anuncios. También se habilitó enviar mensajes a WhatsApp para obtener respuestas en tiempo real y actualizar las citas en las respuestas para mayor verificación. Además, ahora hay sugerencias de búsquedas y autocompletado para facilitar la navegación.
Baidu presentó las versiones Turbo de ERNIE 4.5 y X1, con mayor velocidad y menor coste
Ernie X1 es un modelo de razonamiento de pensamiento profundo, superando a Deepseek R1 y la última versión de V3 a menor precio.
La versión Turbo 4.5 cuesta 11 céntimos y 44 céntimos por millón de tokens de entrada/salida (el 0,2% de GPT-4.5).
Suno 4.5 trae nuevas características de generación de música, incluyendo música más expresiva, mayor variedad y precisión en géneros y voces más ricas.