- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #79
Boletín Semanal Best-IA #79
Aprende IA, día a día.
Tutoriales
La forma más fácil de chatear con un repositorio completo de Github
Google ha lanzado Gemini 2.0 Flash Thinking Experimental 1-21, la última versión de su modelo de razonamiento de visión y lenguaje, con una ventana de contexto ampliada de un millón de tokens y una cadena de pensamiento legible por el usuario.
Esta actualización mejora la precisión en pruebas científicas, matemáticas y multimedia, superando a DeepSeek-R1 pero quedando por detrás de o1 de OpenAI en algunas áreas.
¿Cómo chatear con un repositorio?
Sustituye «github» por «gitingest» en la url, y obtendrás todo el repo como una sola cadena; pégala en AI studio y usa Gémini 2.0 Flash para hacer preguntas
That is the easiest way to chat with a complete Github Repository!👀 Replace "github" with "gitingest" in the url, and you get the whole repo as a single string, paste into AI studio and use @GoogleDeepMind Gemini 2.0 Flash Million Token Context video to ask questions! 🤯
Here… x.com/i/web/status/1…
— Philipp Schmid (@_philschmid)
1:35 PM • Feb 14, 2025
Noticias
Grok 3: El nuevo titán de la IA de xAI
La última versión de la IA de xAI, Grok 3, ya está aquí, y viene con una potencia de cálculo que deja en ridículo a su predecesor. Con un centro de datos monstruoso en Memphis equipado con 200,000 GPUs, xAI promete un modelo 10 veces más potente que Grok 2.
Tres puntos clave de Grok 3
Nuevos modelos de razonamiento y Deep Search
Además del modelo base, xAI lanza dos versiones de razonamiento: Grok 3 Reasoning Model (beta) y Grok 3 Mini Reasoning Model.
Deep Search se incorpora para mejorar la capacidad de respuesta en consultas avanzadas.
Rendimiento top en benchmarks
Supera a OpenAI o1, o3 Mini (High), Gemini Flash y DeepSeek R1 en matemáticas, ciencia y programación.
En el Chatbot Arena (LMSYS) logra el primer puesto con un puntaje ELO de 1400, un récord sin precedentes.
En pruebas como AIME 24 alcanza un 52% de acierto, pero sube hasta un 96% con razonamiento.
Nuevas suscripciones: Premium+ y SuperGrok
Premium+ ($40/mes): acceso prioritario a Grok 3.
SuperGrok ($30/mes o $300/año): desbloquea funciones avanzadas de razonamiento, Deep Search y generación ilimitada de imágenes.
Grok 3 no solo es una mejora incremental, sino un salto colosal en IA generativa. Su capacidad de razonamiento y su "Big Brain Mode" abren nuevas posibilidades para agentes autónomos y procesamiento avanzado de información. Sin embargo, OpenAI sigue con ventaja en algunos frentes. Con un plan para escalar a 1 millón de GPUs, xAI busca revolucionar el futuro de la inteligencia artificial.
OpenAI
OpenAI anuncia su hoja de ruta para GPT-4.5 y GPT-5
OpenAI ha revelado su plan para simplificar su ecosistema de modelos y mejorar la experiencia de usuario. La empresa quiere eliminar la complejidad de selección de modelos y ofrecer una inteligencia unificada.
1. GPT-4.5: La transición antes de la revolución
El próximo modelo en llegar será GPT-4.5, conocido internamente como Orion. Será el último modelo sin razonamiento encadenado (chain-of-thought), marcando una transición antes de GPT-5.
2. GPT-5: Unificación total
GPT-5 integrará los modelos de la serie o-series y GPT-series en un solo sistema. Será capaz de usar herramientas avanzadas, optimizar su razonamiento y adaptarse mejor a distintos tipos de tareas. Además, OpenAI no lanzará o3 como un modelo independiente, sino que lo incorporará en GPT-5.
3. Accesibilidad y mejoras por niveles
ChatGPT gratis: Tendrá acceso ilimitado a GPT-5 en un nivel estándar (con restricciones por abuso).
ChatGPT Plus: Accederá a una versión más avanzada de GPT-5.
ChatGPT Pro: Ofrecerá aún más capacidades, incluyendo integración con voz, canvas, búsqueda avanzada y deep research.
OPENAI ROADMAP UPDATE FOR GPT-4.5 and GPT-5:
We want to do a better job of sharing our intended roadmap, and a much better job simplifying our product offerings.
We want AI to “just work” for you; we realize how complicated our model and product offerings have gotten.
We hate… x.com/i/web/status/1…
— Sam Altman (@sama)
7:17 PM • Feb 12, 2025
Actualizaciones de modelos
ChatGPT 4o ha sido actualizado a una nueva versión más potente.
Deep Research ahora está disponible para todos los usuarios Pro en las apps móviles y de escritorio (iOS, Android, macOS y Windows).
OpenAI o1 y o3-mini ahora admiten la carga de archivos e imágenes en ChatGPT.
Aumento de los límites de o3-mini-high para usuarios Plus, hasta 50 por día.
OpenAI avanza en el desarrollo de su propio chip de IA
OpenAI está dando un paso estratégico clave para reducir su dependencia de Nvidia y fortalecer su posición en el mercado de chips de inteligencia artificial. La empresa planea finalizar el diseño de su primer chip propio este año y enviarlo a la fabricación con TSMC.
1. Un chip propio para mayor independencia
El desarrollo de chips internos le permitirá a OpenAI disminuir costos y depender menos de proveedores externos como Nvidia. Esto no solo representa una ventaja competitiva, sino que también le da más control sobre su infraestructura tecnológica.
2. Producción en marcha para 2026
El primer diseño de OpenAI está en fase de “tape-out”, el proceso previo a la fabricación. Si todo sale bien, la empresa podría producir en masa su primer chip en 2026. Sin embargo, el proceso es costoso y cualquier fallo podría retrasar los planes significativamente.
3. Competencia en el sector de chips de IA
Grandes empresas como Google, Microsoft y Meta han intentado fabricar sus propios chips con resultados mixtos. OpenAI apuesta por un equipo pequeño pero altamente especializado, liderado por Richard Ho, exlíder del programa de chips de Google, y apoyado por Broadcom.
Este movimiento pone a OpenAI en una posición más fuerte dentro del ecosistema de la IA, dándole mayor flexibilidad y capacidad de negociación en el mercado de hardware. Si tiene éxito, podría desafiar el dominio de Nvidia y marcar una nueva etapa en la evolución de la infraestructura para modelos de IA.
Perplexity Deep Research: La nueva IA para investigaciones avanzadas
Perplexity ha lanzado Deep Research, una herramienta de inteligencia artificial diseñada para realizar análisis exhaustivos en minutos. Su capacidad para recopilar, sintetizar y presentar información detallada la convierte en una opción potente para investigadores y analistas.
1. Búsqueda y análisis en tiempo récord
Deep Research ejecuta múltiples búsquedas simultáneas en la web, analizando cientos de fuentes y generando informes de más de 1,300 palabras en menos de tres minutos. Además, su capacidad de razonamiento le permite sugerir próximos pasos en la investigación.
2. Precisión superior a otras IA
Con un 93.9% de precisión en la prueba SimpleQA, supera a modelos de Google y OpenAI. Además, ha alcanzado un 20.5% de precisión en Humanity's Last Exam, un estándar de evaluación avanzado en IA.
3. Accesibilidad y exportación de datos
Deep Research está disponible de forma gratuita con un límite de consultas diarias, mientras que los usuarios Pro tienen acceso ilimitado. Los resultados pueden exportarse en PDF o como página compartible dentro de Perplexity.
Esta herramienta podría revolucionar la investigación al hacerla más rápida, accesible y efectiva. Al combinar velocidad, precisión y facilidad de uso, Deep Research se perfila como un competidor fuerte en el mercado de análisis asistido por IA, desafiando a gigantes tecnológicos con una alternativa más asequible y eficiente.
Microsoft OmniParser V2: El modelo open source que ve tu pantalla, la entiende, y ejecuta acciones como un humano
Microsoft ha presentado OmniParser V2, una herramienta que mejora la interacción de los modelos de lenguaje (LLM) con interfaces gráficas de usuario (GUI), permitiendo una automatización más eficiente de tareas en pantalla.
1. Mejora en la detección y velocidad
OmniParser V2 supera a su versión anterior al detectar con mayor precisión elementos interactivos más pequeños y al ofrecer una inferencia más rápida, reduciendo la latencia en un 60%.
2. Integración con múltiples modelos de lenguaje
La herramienta se integra con diversos LLMs, incluyendo OpenAI, DeepSeek, Qwen y Anthropic, facilitando la comprensión y ejecución de acciones en diferentes entornos de usuario.
3. Introducción de OmniTool para experimentación
Microsoft ha desarrollado OmniTool, un sistema dockerizado para Windows que incorpora herramientas esenciales, permitiendo a los agentes experimentar y adaptarse rápidamente a diferentes configuraciones.
La capacidad de los LLMs para comprender y manipular interfaces gráficas amplía significativamente su aplicabilidad en la automatización de tareas cotidianas. OmniParser V2 no solo mejora la precisión y velocidad en la interacción con GUIs, sino que también facilita la integración con diversos modelos de lenguaje, promoviendo una mayor eficiencia en entornos informáticos variados. Esta evolución es crucial para el desarrollo de agentes de inteligencia artificial más versátiles y efectivos en la asistencia al usuario.
Microsoft just dropped OmniParser V2, this changes everything.
This AI sees your screen, understands it, and takes action, just like a human.
100% free & open source!
— Min Choi (@minchoi)
4:15 PM • Feb 15, 2025
Trae AI: El IDE Inteligente y Gratuito de ByteDance
ByteDance acaba de lanzar Trae AI, un IDE de inteligencia artificial gratuito diseñado para transformar el desarrollo de software. No es solo otro asistente de código, es una herramienta de colaboración activa entre humanos y IA, optimizando el flujo de trabajo y acelerando la productividad.
Lo más potente de Trae AI
Builder Mode: Desarrollo guiado por IA
Conversa con Trae para construir proyectos más rápido.
Desglosa automáticamente tareas y las ejecuta con eficiencia.
Multimodalidad: Entiende imágenes y contexto
Puedes subir imágenes para describir requerimientos y recibir interpretaciones precisas.
Trae comprende el código en su totalidad, analizando el editor y terminal para ofrecer sugerencias más precisas.
Autocompletado inteligente
Predice tus ediciones en tiempo real.
Completa fragmentos de código automáticamente con lógica contextualizada.
Trae AI está disponible actualmente para macOS y Windows. El IDE es una bifurcación de Visual Studio Code de Microsoft, lo que permite a los usuarios aprovechar una amplia gama de extensiones disponibles en el mercado de Visual Studio Code.
LINK: https://www.trae.ai/
StepFun AI lanza Nuevos modelos Open-Source de Vanguardia en Video y Audio
StepFun AI ha lanzado Step-Video-T2V y Step-Audio, dos modelos de última generación completamente open-source que prometen revolucionar la generación de contenido multimedia.
🎬 Step-Video-T2V: Texto a Video de Alta Calidad
Este nuevo modelo de text-to-video cuenta con:
✅ 30B parámetros para generar videos ultra realistas
✅ Soporte para prompts en inglés y chino
✅ Resolución de hasta 540p y 204 frames por video
✅ Gran coherencia visual y fluidez en las animaciones💾 Código abierto con licencia MIT. Disponible gratis en Stepchat.
🔴 ¡NUEVO MODELO de VÍDEO OPEN SOURCE!
Desde China nos llega StepFun, un nuevo modelo de generación de vídeo que ofrece muy buenos resultados y que sí, una vez más, está disponible para descargar y usar. Eso sí, si tenéis 80GB de VRAM 😅
Los resultados se ven muy bien 👇 x.com/i/web/status/1…
— Carlos Santana (@DotCSV)
11:44 AM • Feb 17, 2025
🎙 Step-Audio: Interacción Vocal Inteligente
El primer modelo de producción open-source para interacciones de voz naturales e inteligentes, con:
✅ Conversaciones multilingües
✅ Tonos emocionales y dialectos regionales
✅ Velocidad de habla ajustable y capacidad para cantar
✅ Estilos prosódicos avanzados🔊 Gratis en la app Stepchat, con licencia Apache para uso comercial
Estos modelos elevan el estándar de las herramientas open-source en IA generativa, ofreciendo capacidades de video y audio de alta calidad sin restricciones comerciales. Esto abre nuevas posibilidades para creadores, desarrolladores y empresas que buscan integrar inteligencia artificial en sus proyectos sin depender de plataformas cerradas.
Zonos Beta, el nuevo modelo TTS de código abierto altamente expresivo de Zyphra AI con clonación de voz de alta fidelidad
Zonos ofrece un control flexible de la velocidad vocal, la emoción, el tono y la calidad de audio, así como la clonación de voz de alta calidad ilimitada instantánea.
Try the model in our playground and build with our model API: playground.zyphra.com/audio
Read our blog post: zyphra.com/post/beta-rele…
Get the weights on Huggingface: huggingface.co/Zyphra/Zonos-v… and huggingface.co/Zyphra/Zonos-v…
Download the inference code:
— Zyphra (@ZyphraAI)
5:00 PM • Feb 10, 2025
Robots
Booster Robotics T1
Booster Robotics de China compartió la prueba de choque de su robot T1
El T1, que mide 1,2 metros de altura, se puede ver moviéndose sin titubear tras los golpes de un martillo, una botella y un palo de madera
El robot está fabricado con metal y plástico de alta resistencia para soportar impactos.
Amazing! Booster T1 can do Kung Fu! #extremetest#shocktest#humanoid#kungfu#robotics#boosterrobotics
— Booster Robotics (@boosterobotics)
10:32 AM • Feb 14, 2025
Nueva actualización de Unitree
Keep the Music Going, Keep the Dance Flowing😘
Feature was just developed in the past few days and hasn't been rolled out to customers yet. There are also variations in functionality across different models and versions of the robot.
#Unitree#EmbodiedAI#SpringFestivalGalaRobot… x.com/i/web/status/1…— Unitree (@UnitreeRobotics)
10:22 AM • Feb 18, 2025