Boletín Semanal Best-IA #79

Aprende IA, día a día.

Tutoriales

La forma más fácil de chatear con un repositorio completo de Github

  • Google ha lanzado Gemini 2.0 Flash Thinking Experimental 1-21, la última versión de su modelo de razonamiento de visión y lenguaje, con una ventana de contexto ampliada de un millón de tokens y una cadena de pensamiento legible por el usuario.

    • Esta actualización mejora la precisión en pruebas científicas, matemáticas y multimedia, superando a DeepSeek-R1 pero quedando por detrás de o1 de OpenAI en algunas áreas.

  • ¿Cómo chatear con un repositorio?

    • Sustituye «github» por «gitingest» en la url, y obtendrás todo el repo como una sola cadena; pégala en AI studio y usa Gémini 2.0 Flash para hacer preguntas

Noticias

Grok 3: El nuevo titán de la IA de xAI

  • La última versión de la IA de xAI, Grok 3, ya está aquí, y viene con una potencia de cálculo que deja en ridículo a su predecesor. Con un centro de datos monstruoso en Memphis equipado con 200,000 GPUs, xAI promete un modelo 10 veces más potente que Grok 2.

  • Tres puntos clave de Grok 3

    • Nuevos modelos de razonamiento y Deep Search

      • Además del modelo base, xAI lanza dos versiones de razonamiento: Grok 3 Reasoning Model (beta) y Grok 3 Mini Reasoning Model.

      • Deep Search se incorpora para mejorar la capacidad de respuesta en consultas avanzadas.

    • Rendimiento top en benchmarks

      • Supera a OpenAI o1, o3 Mini (High), Gemini Flash y DeepSeek R1 en matemáticas, ciencia y programación.

      • En el Chatbot Arena (LMSYS) logra el primer puesto con un puntaje ELO de 1400, un récord sin precedentes.

      • En pruebas como AIME 24 alcanza un 52% de acierto, pero sube hasta un 96% con razonamiento.

    • Nuevas suscripciones: Premium+ y SuperGrok

      • Premium+ ($40/mes): acceso prioritario a Grok 3.

      • SuperGrok ($30/mes o $300/año): desbloquea funciones avanzadas de razonamiento, Deep Search y generación ilimitada de imágenes.

  • Grok 3 no solo es una mejora incremental, sino un salto colosal en IA generativa. Su capacidad de razonamiento y su "Big Brain Mode" abren nuevas posibilidades para agentes autónomos y procesamiento avanzado de información. Sin embargo, OpenAI sigue con ventaja en algunos frentes. Con un plan para escalar a 1 millón de GPUs, xAI busca revolucionar el futuro de la inteligencia artificial.

OpenAI

OpenAI anuncia su hoja de ruta para GPT-4.5 y GPT-5

  • OpenAI ha revelado su plan para simplificar su ecosistema de modelos y mejorar la experiencia de usuario. La empresa quiere eliminar la complejidad de selección de modelos y ofrecer una inteligencia unificada.

  • 1. GPT-4.5: La transición antes de la revolución

    El próximo modelo en llegar será GPT-4.5, conocido internamente como Orion. Será el último modelo sin razonamiento encadenado (chain-of-thought), marcando una transición antes de GPT-5.

  • 2. GPT-5: Unificación total

    GPT-5 integrará los modelos de la serie o-series y GPT-series en un solo sistema. Será capaz de usar herramientas avanzadas, optimizar su razonamiento y adaptarse mejor a distintos tipos de tareas. Además, OpenAI no lanzará o3 como un modelo independiente, sino que lo incorporará en GPT-5.

  • 3. Accesibilidad y mejoras por niveles

    • ChatGPT gratis: Tendrá acceso ilimitado a GPT-5 en un nivel estándar (con restricciones por abuso).

    • ChatGPT Plus: Accederá a una versión más avanzada de GPT-5.

    • ChatGPT Pro: Ofrecerá aún más capacidades, incluyendo integración con voz, canvas, búsqueda avanzada y deep research.

Actualizaciones de modelos

  • ChatGPT 4o ha sido actualizado a una nueva versión más potente.

  • Deep Research ahora está disponible para todos los usuarios Pro en las apps móviles y de escritorio (iOS, Android, macOS y Windows).

  • OpenAI o1 y o3-mini ahora admiten la carga de archivos e imágenes en ChatGPT.

  • Aumento de los límites de o3-mini-high para usuarios Plus, hasta 50 por día.

OpenAI avanza en el desarrollo de su propio chip de IA

  • OpenAI está dando un paso estratégico clave para reducir su dependencia de Nvidia y fortalecer su posición en el mercado de chips de inteligencia artificial. La empresa planea finalizar el diseño de su primer chip propio este año y enviarlo a la fabricación con TSMC.

  • 1. Un chip propio para mayor independencia

    • El desarrollo de chips internos le permitirá a OpenAI disminuir costos y depender menos de proveedores externos como Nvidia. Esto no solo representa una ventaja competitiva, sino que también le da más control sobre su infraestructura tecnológica.

  • 2. Producción en marcha para 2026

    • El primer diseño de OpenAI está en fase de “tape-out”, el proceso previo a la fabricación. Si todo sale bien, la empresa podría producir en masa su primer chip en 2026. Sin embargo, el proceso es costoso y cualquier fallo podría retrasar los planes significativamente.

  • 3. Competencia en el sector de chips de IA

    • Grandes empresas como Google, Microsoft y Meta han intentado fabricar sus propios chips con resultados mixtos. OpenAI apuesta por un equipo pequeño pero altamente especializado, liderado por Richard Ho, exlíder del programa de chips de Google, y apoyado por Broadcom.

  • Este movimiento pone a OpenAI en una posición más fuerte dentro del ecosistema de la IA, dándole mayor flexibilidad y capacidad de negociación en el mercado de hardware. Si tiene éxito, podría desafiar el dominio de Nvidia y marcar una nueva etapa en la evolución de la infraestructura para modelos de IA.

  • FUENTE: https://www.reuters.com/technology/openai-set-finalize-first-custom-chip-design-this-year-2025-02-10/

Perplexity Deep Research: La nueva IA para investigaciones avanzadas

  • Perplexity ha lanzado Deep Research, una herramienta de inteligencia artificial diseñada para realizar análisis exhaustivos en minutos. Su capacidad para recopilar, sintetizar y presentar información detallada la convierte en una opción potente para investigadores y analistas.

  • 1. Búsqueda y análisis en tiempo récord

    • Deep Research ejecuta múltiples búsquedas simultáneas en la web, analizando cientos de fuentes y generando informes de más de 1,300 palabras en menos de tres minutos. Además, su capacidad de razonamiento le permite sugerir próximos pasos en la investigación.

  • 2. Precisión superior a otras IA

    • Con un 93.9% de precisión en la prueba SimpleQA, supera a modelos de Google y OpenAI. Además, ha alcanzado un 20.5% de precisión en Humanity's Last Exam, un estándar de evaluación avanzado en IA.

  • 3. Accesibilidad y exportación de datos

    • Deep Research está disponible de forma gratuita con un límite de consultas diarias, mientras que los usuarios Pro tienen acceso ilimitado. Los resultados pueden exportarse en PDF o como página compartible dentro de Perplexity.

  • Esta herramienta podría revolucionar la investigación al hacerla más rápida, accesible y efectiva. Al combinar velocidad, precisión y facilidad de uso, Deep Research se perfila como un competidor fuerte en el mercado de análisis asistido por IA, desafiando a gigantes tecnológicos con una alternativa más asequible y eficiente.

Microsoft OmniParser V2: El modelo open source que ve tu pantalla, la entiende, y ejecuta acciones como un humano

  • Microsoft ha presentado OmniParser V2, una herramienta que mejora la interacción de los modelos de lenguaje (LLM) con interfaces gráficas de usuario (GUI), permitiendo una automatización más eficiente de tareas en pantalla.

  • 1. Mejora en la detección y velocidad

    • OmniParser V2 supera a su versión anterior al detectar con mayor precisión elementos interactivos más pequeños y al ofrecer una inferencia más rápida, reduciendo la latencia en un 60%.

  • 2. Integración con múltiples modelos de lenguaje

    • La herramienta se integra con diversos LLMs, incluyendo OpenAI, DeepSeek, Qwen y Anthropic, facilitando la comprensión y ejecución de acciones en diferentes entornos de usuario.

  • 3. Introducción de OmniTool para experimentación

    • Microsoft ha desarrollado OmniTool, un sistema dockerizado para Windows que incorpora herramientas esenciales, permitiendo a los agentes experimentar y adaptarse rápidamente a diferentes configuraciones.

  • La capacidad de los LLMs para comprender y manipular interfaces gráficas amplía significativamente su aplicabilidad en la automatización de tareas cotidianas. OmniParser V2 no solo mejora la precisión y velocidad en la interacción con GUIs, sino que también facilita la integración con diversos modelos de lenguaje, promoviendo una mayor eficiencia en entornos informáticos variados. Esta evolución es crucial para el desarrollo de agentes de inteligencia artificial más versátiles y efectivos en la asistencia al usuario.

Trae AI: El IDE Inteligente y Gratuito de ByteDance

  • ByteDance acaba de lanzar Trae AI, un IDE de inteligencia artificial gratuito diseñado para transformar el desarrollo de software. No es solo otro asistente de código, es una herramienta de colaboración activa entre humanos y IA, optimizando el flujo de trabajo y acelerando la productividad.

  • Lo más potente de Trae AI

    • Builder Mode: Desarrollo guiado por IA

      • Conversa con Trae para construir proyectos más rápido.

      • Desglosa automáticamente tareas y las ejecuta con eficiencia.

    • Multimodalidad: Entiende imágenes y contexto

      • Puedes subir imágenes para describir requerimientos y recibir interpretaciones precisas.

      • Trae comprende el código en su totalidad, analizando el editor y terminal para ofrecer sugerencias más precisas.

    • Autocompletado inteligente

      • Predice tus ediciones en tiempo real.

      • Completa fragmentos de código automáticamente con lógica contextualizada.

  • Trae AI está disponible actualmente para macOS y Windows. El IDE es una bifurcación de Visual Studio Code de Microsoft, lo que permite a los usuarios aprovechar una amplia gama de extensiones disponibles en el mercado de Visual Studio Code.

  • LINK: https://www.trae.ai/

StepFun AI lanza Nuevos modelos Open-Source de Vanguardia en Video y Audio

  • StepFun AI ha lanzado Step-Video-T2V y Step-Audio, dos modelos de última generación completamente open-source que prometen revolucionar la generación de contenido multimedia.

  • 🎬 Step-Video-T2V: Texto a Video de Alta Calidad

    • Este nuevo modelo de text-to-video cuenta con:

    •  30B parámetros para generar videos ultra realistas
       Soporte para prompts en inglés y chino
       Resolución de hasta 540p y 204 frames por video
       Gran coherencia visual y fluidez en las animaciones

    • 💾 Código abierto con licencia MIT. Disponible gratis en Stepchat.

  • 🎙 Step-Audio: Interacción Vocal Inteligente

    • El primer modelo de producción open-source para interacciones de voz naturales e inteligentes, con:

    •  Conversaciones multilingües
       Tonos emocionales y dialectos regionales
       Velocidad de habla ajustable y capacidad para cantar
       Estilos prosódicos avanzados

    • 🔊 Gratis en la app Stepchat, con licencia Apache para uso comercial

  • Estos modelos elevan el estándar de las herramientas open-source en IA generativa, ofreciendo capacidades de video y audio de alta calidad sin restricciones comerciales. Esto abre nuevas posibilidades para creadores, desarrolladores y empresas que buscan integrar inteligencia artificial en sus proyectos sin depender de plataformas cerradas.

Zonos Beta, el nuevo modelo TTS de código abierto altamente expresivo de Zyphra AI con clonación de voz de alta fidelidad

  • Zonos ofrece un control flexible de la velocidad vocal, la emoción, el tono y la calidad de audio, así como la clonación de voz de alta calidad ilimitada instantánea.

Robots

Booster Robotics T1

  • Booster Robotics de China compartió la prueba de choque de su robot T1

  • El T1, que mide 1,2 metros de altura, se puede ver moviéndose sin titubear tras los golpes de un martillo, una botella y un palo de madera

  • El robot está fabricado con metal y plástico de alta resistencia para soportar impactos.

Nueva actualización de Unitree

Reflexiones Finales

David Vivancos: ¿Por qué el 90% de los Empleos Desaparecerán?