Boletín Semanal Best-IA #85

Aprende IA, día a día.

Tutoriales

Curso completo sobre IA Generativa de Microsoft

Certificado de aptitud en IA Generativa para el Desarrollo de Software de DeepLearning.AI

NotebookLM de Google ahora hace MUCHO MÁS... ¡Increíble actualización!

Tutorial MANUS AI desde Cero en ESPAÑOL

Noticias

Gemini 2.5 Pro Experimental, el nuevo modelo de razonamiento Google, supera a todos sus competidores 

  • DeepMind ha presentado Gemini 2.5 Pro Experimental, su modelo de IA más avanzado hasta la fecha. Esta nueva generación de modelos “pensantes” destaca por su capacidad de razonamiento, rendimiento superior en benchmarks clave y habilidades de programación altamente refinadas.

  • Tres claves del avance:

    1. Un modelo que razona antes de hablar
      Gemini 2.5 está diseñado para “pensar antes de responder”, lo que se traduce en respuestas más precisas, coherentes y contextualmente informadas. Este enfoque mejora el análisis, la toma de decisiones y la comprensión de problemas complejos.

    2. Rendimiento líder en benchmarks
      Supera a todos sus competidores en LMArena, GPQA, AIME 2025 y Humanity’s Last Exam, demostrando un dominio sobresaliente en razonamiento, ciencia y matemáticas sin depender de técnicas de inferencia costosas como el majority voting.

    3. Potencia para desarrolladores y empresas
      Con un contexto de hasta 1 millón de tokens (pronto 2 millones), Gemini 2.5 Pro puede manejar entradas extensas y variadas —desde texto hasta repositorios de código— y brilla en tareas de programación complejas, como transformación de código y creación de apps web.

  • Gemini 2.5 Pro consolida la evolución hacia modelos de lenguaje realmente útiles para tareas complejas. Al integrar razonamiento como capacidad nativa, mejora no solo la calidad de las respuestas, sino también su aplicabilidad en entornos de producción. Esta mejora continua posiciona a Google como un actor clave en el desarrollo de IA avanzada, capaz de impulsar flujos de trabajo autónomos y herramientas más contextuales, precisas y fiables.

GPT-4o ya genera imágenes de forma nativa

  • OpenAI ha lanzado oficialmente la generación de imágenes nativas dentro de ChatGPT, gracias al modelo GPT-4o. Esta nueva función marca un salto importante: ya no se trata solo de generar imágenes creativas, sino de integrarlas de forma fluida y precisa en conversaciones, con texto perfecto, estilos personalizados y capacidad de edición en tiempo real.

  • Tres claves del avance:

    1. Multimodalidad real, integrada y fluida
      GPT-4o no solo comprende texto, sino también imágenes, audio y video, y genera contenido en todos estos formatos. Ya no son sistemas separados: ahora puedes tomar una foto, describir un estilo (como anime o manga) y obtener una imagen en segundos dentro del mismo chat, manteniendo coherencia y contexto.

    2. Texto en imágenes... sin errores
      Una de las mejoras más esperadas ha llegado: la generación de imágenes con texto perfectamente legible, sin errores tipográficos ni deformaciones. Esto abre la puerta a crear memes, tarjetas, paneles de cómic o materiales educativos directamente desde el chat, con control total sobre el estilo y contenido.

    3. Edición visual por conversación
      GPT-4o permite editar imágenes generadas con lenguaje natural: cambiar fondos, ajustar colores, modificar detalles o añadir nuevos elementos manteniendo la coherencia visual. Todo esto convierte al modelo en una herramienta de diseño colaborativo, accesible incluso para quienes no tienen formación artística.

  • La generación de imágenes con GPT-4o transforma la IA visual de un juguete curioso a una herramienta útil y versátil. Creativos, educadores, desarrolladores y usuarios cotidianos ahora tienen acceso a un sistema que entiende, genera y edita imágenes de forma natural y conversacional. Este avance acerca aún más la IA al trabajo cotidiano, y marca un paso claro hacia interfaces donde texto, imagen y voz conviven sin fricciones.

Nueva actualización en ChatGPT-4o

  • ChaGPT-4o ha recibido una nueva actualización:

    • Mejor seguimiento de instrucciones detalladas, especialmente aquellas que contienen múltiples peticiones.

    • Capacidad mejorada para abordar problemas técnicos y de programación complejos.

    • Mayor intuición y creatividad.

    • Menos emojis.

  • Esta versión actualizada de GPT-4o ya está disponible para todos los usuarios de pago. Estará disponible para los usuarios gratuitos en las próximas semanas.

DeepSeek V3-0324: el nuevo rey de los modelos open source sin razonamiento

  • DeepSeek ha lanzado la versión V3-0324 de su modelo, que ya se posiciona como el mejor modelo non-reasoning (sin razonamiento) de código abierto, superando incluso a opciones propietarias como Gemini 2.0 Pro y Claude 3.7 Sonnet. Aunque no compite con modelos de razonamiento profundo, destaca por su velocidad y eficiencia en tareas que no requieren "pensar".

  • Tres claves del avance:

    1. Liderazgo absoluto en modelos sin razonamiento
      V3-0324 encabeza el Artificial Analysis Intelligence Index para modelos que responden sin realizar pasos intermedios de razonamiento, batiendo tanto a modelos open source como comerciales. Esto marca un hito: por primera vez, un modelo con pesos abiertos lidera este segmento.

    2. Ideal para aplicaciones sensibles a la latencia
      Al no requerir procesos de razonamiento complejos, V3-0324 ofrece respuestas inmediatas. Esto lo hace perfecto para casos de uso donde la velocidad importa más que la profundidad, como asistentes rápidos, interfaces de usuario y tareas automatizadas simples.

    3. Código abierto bajo licencia MIT
      DeepSeek mantiene su apuesta por la transparencia: V3-0324 está disponible con pesos abiertos en Hugging Face bajo licencia MIT. Conserva los 128k de contexto (64k vía API), una arquitectura de 671B parámetros (37B activos), y precisión FP8 nativa.

  • DeepSeek V3-0324 demuestra que la IA de código abierto no sólo puede seguir el ritmo de los grandes actores comerciales, sino liderar en áreas clave como la eficiencia y el acceso. Este avance refuerza el papel de la comunidad open source en el desarrollo de modelos útiles, rápidos y libres, y anticipa una competencia cada vez más equilibrada entre lo abierto y lo propietario. La mirada ya está puesta en DeepSeek R2.

  • LINK: https://www.deepseek.com/

Qwen2.5-Omni: ¡Chat de voz + chat de video! Nuevo y potente modelo multimodal de código abierto de Alibaba

  • Alibaba ha presentado Qwen2.5-Omni, su nuevo modelo multimodal de referencia. Este sistema “todo en uno” no solo entiende texto, imágenes, audio y video, sino que responde en tiempo real tanto por escrito como con voz natural. Su arquitectura unificada lo convierte en una propuesta potente para asistentes interactivos y agentes inteligentes.

  • Tres claves del avance:

    1. Multimodalidad real, no por partes
      Qwen2.5-Omni es un modelo end-to-end capaz de procesar e integrar entradas de texto, imagen, audio y video. Gracias a su arquitectura Thinker-Talker y la técnica TMRoPE, sincroniza audio y video en tiempo real, y genera respuestas fluidas tanto en texto como en voz.

    2. Conversaciones naturales y en directo
      Diseñado para interacciones streaming, el modelo soporta entradas fragmentadas y genera respuestas inmediatas. Su capacidad de síntesis de voz supera a muchos sistemas existentes, con resultados más naturales y robustos, ideales para asistentes conversacionales.

    3. Rinde mejor que modelos especializados
      En benchmarks como MMLU, GSM8K o OmniBench, Qwen2.5-Omni ofrece un rendimiento comparable o superior al de modelos dedicados a tareas específicas (como Qwen2-Audio o Gemini 1.5 Pro). También brilla en tareas complejas como comprensión de video, razonamiento multimodal o generación de voz.

  • Qwen2.5-Omni representa un paso firme hacia modelos verdaderamente universales. Su capacidad para integrar múltiples modalidades en tiempo real, sin necesidad de módulos separados, allana el camino para interfaces más fluidas y humanas. Este tipo de arquitectura será clave en la próxima generación de agentes autónomos, interfaces conversacionales y herramientas que combinan visión, sonido y lenguaje de forma natural y sin fricciones.

Ideogram lanza su versión 3.0

  • Ideogram ha lanzado la versión 3.0 de su modelo de generación de imágenes, destacando por mejoras notables en realismo fotográfico, fidelidad tipográfica y coherencia estilística. El avance sitúa a Ideogram como un competidor serio en el campo dominado por gigantes como OpenAI y Google.

  • Tres claves de la actualización:

    1. Diseño gráfico y tipografía de alto nivel
      Ideogram 3.0 permite crear logos, composiciones gráficas complejas y tipografías con una precisión antes inalcanzable, ampliando el potencial creativo de sus usuarios.

    2. Resultados superiores en evaluaciones humanas
      En pruebas comparativas, superó a modelos de referencia como Imagen 3 (Google), Flux Pro 1.1 y Recraft V3, consolidando su posición como líder en generación de imágenes con texto.

    3. Control estético con imágenes de referencia
      La nueva función “Style References” permite cargar hasta tres imágenes para guiar la estética del resultado final, apoyada por una biblioteca con 4.300 millones de estilos predefinidos.

  • El lanzamiento de Ideogram 3.0 demuestra que la generación precisa de texto en imágenes y el diseño gráfico por IA están prácticamente resueltos en esta generación de modelos. Aunque la atención mediática esté centrada en OpenAI, el salto cualitativo de Ideogram muestra que el mercado se está llenando de alternativas potentes y accesibles, acelerando la democratización del diseño visual asistido por IA.

Microsoft 365 presenta dos nuevos agentes de IA con capacidad de pensamiento

  • Microsoft 365 presentó dos nuevos agentes de IA con capacidad de pensamiento para ayudar a los usuarios en tareas laborales:

    Investigador: Para investigar informes utilizando diferentes fuentes de conocimiento, incluida la web.
    Analista: Para extraer información de los datos, similar a lo que hacen los analistas de datos.

Perplexity introduce modos de respuesta especializados para hacer las búsquedas más útiles

  • Perplexity está introduciendo modos de respuesta especializados para hacer su producto de búsqueda más útil en ciertos sectores: viajes, compras, lugares, imágenes, videos y empleos. El objetivo es que, en el futuro, no tengas que hacer clic en diferentes pestañas para obtener resultados más específicos. Esta función ya está disponible en la versión web, y se lanzará en móvil pronto.

    • En el sector de viajes, ahora puedes reservar hoteles directamente en Perplexity, gracias a una colaboración con TripAdvisor y Selfbook. Además, planean ofrecer beneficios exclusivos para usuarios Pro, como descuentos en reservas de hoteles realizadas en Perplexity. Más detalles sobre esto se compartirán pronto.

  • La idea es ir más allá de simplemente responder con texto largo y ser más eficiente con respuestas estructuradas para sectores específicos, utilizando elementos como imágenes, videos y tarjetas con transacciones comerciales integradas. Esto es clave para que Perplexity se convierta en una herramienta de uso diario y compita de manera más directa con Google.

Robots

Figure 02 ya camina como un humano gracias a la IA

  • Figure ha presentado avances espectaculares en locomoción robótica con Figure 02, su nuevo robot humanoide que ya camina de forma natural. La clave: una red neuronal entrenada por refuerzo en simulación, capaz de transferir lo aprendido al mundo real sin ajustes adicionales.

  • Tres claves del avance:

    1. Caminar como un humano, sin ajustes manuales
      Figure 02 aprende a caminar con fluidez humana gracias a una red neuronal entrenada end-to-end. No hay programación específica de movimientos: el robot aprende desde cero, imitando el equilibrio y la dinámica del cuerpo humano.

    2. Entrenamiento simulado, resultados reales
      Usando un simulador físico de alta fidelidad, el equipo condensa años de entrenamiento en solo unas horas. Gracias a la técnica Sim-to-Real, lo aprendido se transfiere al robot real sin necesidad de retocar los parámetros.

    3. Precisión y adaptabilidad con feedback en tiempo real
      El éxito en la transferencia se logra combinando domain randomization en simulación con retroalimentación de torque a alta frecuencia en el hardware, lo que permite una ejecución natural y estable en entornos reales.

  • Figure 02 representa un paso decisivo hacia robots humanoides funcionales. Gracias al uso de IA, los robots ya no dependen de programación manual para moverse, sino que aprenden como lo haría un cuerpo vivo. Este enfoque acelera el desarrollo de robots que podrán integrarse con fluidez en entornos humanos, abriendo nuevas posibilidades para la asistencia, la industria y la investigación en locomoción artificial.

Reflexiones Finales

Amjad Masad, CEO de Replit

  • Amjad Masad, CEO de Replit, cuenta que hace un año les decía a las personas que aprendieran a programar, pero ahora cree que "sería una pérdida de tiempo".

  • En lugar de aprender a programar, Amjad aconseja: "Aprende a pensar, aprende a descomponer problemas, aprende a comunicarte de manera clara".