- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #72
Boletín Semanal Best-IA #72
Aprende IA, día a día.
Tutoriales
Github CoPilot GRATIS para VSCode
Noticias
OpenAI
OpenAI presenta o3 y o3-mini pulverizando todos los benchmarks
Sólo 3 meses después de lanzar o1, OpenAI ha anunciado los modelos o3 y o3-mini, que establecen nuevos puntos de referencia en tareas avanzadas como programación, matemáticas y razonamiento adaptativo. Los resultados preliminares sugieren un salto significativo en capacidades y eficiencia.
Puntos clave:
Rendimiento superior en benchmarks técnicos:
El modelo o3 demuestra un rendimiento sobresaliente, logrando un Elo de 2727 en programación competitiva y superando el 96% de precisión en matemáticas de competencia. También establece un nuevo récord con un 25% en el desafío EpochAI Frontier Math, un enorme salto desde el 2% anterior.Mejoras en razonamiento y adaptabilidad:
o3 alcanza una puntuación sin precedentes de 87.5% en ARC-AGI cuando se le permite usar más recursos computacionales. Por su parte, o3-mini promete razonamiento adaptativo con tres modos de pensamiento (bajo, medio y alto), logrando latencias comparables a GPT-4o en matemáticas, pero con mayor eficiencia de costos.Disponibilidad y enfoque en la seguridad:
Mientras que o3-mini está programado para lanzarse a finales de enero, o3 llegará poco después. OpenAI también abre un programa de seguridad para que los desarrolladores prueben los modelos y garanticen su uso responsable.

La presentación de los modelos o3 y o3-mini marca un avance notable en la capacidad de los sistemas de IA para manejar tareas complejas con precisión y eficiencia. Estas mejoras aceleran el desarrollo de aplicaciones en ciencia, tecnología y educación, destacando la necesidad de evaluar cuidadosamente su implementación para garantizar un impacto positivo y seguro. La AGI parece estar cada día más cercana.
OpenAI actualiza o1 con nuevas capacidades y API en tiempo real
OpenAI ha anunciado la disponibilidad oficial de su nueva versión "o1-2024-12-17" del modelo o1 a través de la API, junto con importantes mejoras en sus herramientas en tiempo real. Estas actualizaciones amplían las posibilidades para la creación de aplicaciones más avanzadas y eficientes.
Puntos clave:
Nuevas capacidades del modelo o1: Incluye funciones como function calling para conectar datos externos, mensajes de control para tono y estilo, análisis de imágenes, ajuste de "razonamiento" (velocidad de procesamiento) y preference fine-tuning.
Costos del modelo o1: El modelo es potente pero costoso, con un precio de $15 por 750k palabras analizadas y $60 por 750k palabras generadas, hasta 4 veces más caro que GPT-4o.
Actualización del Realtime API: Se añadieron integraciones WebRTC para aplicaciones de voz más fluidas, una reducción del 60% en el precio de audio GPT-4o, soporte para tareas en segundo plano y nuevos modelos GPT-4o y 4o mini.
Importancia: Estas actualizaciones representan un avance significativo para los desarrolladores, brindando herramientas más flexibles y potentes. Aunque el costo del modelo o1 puede ser un desafío, sus capacidades avanzadas y las mejoras en el Realtime API abren nuevas oportunidades para aplicaciones de IA innovadoras y más accesibles.
ChatGPT ahora con búsqueda web para todos los usuarios
OpenAI ha habilitado la función de búsqueda web para todos los usuarios registrados en regiones donde ChatGPT está disponible.
ChatGPT potencia su app de escritorio con nuevas funciones avanzadas
En el penúltimo día de la serie "12 Días de OpenAI", se presentó una mejora significativa para las apps de escritorio de ChatGPT, tanto en macOS como próximamente en Windows. Estas actualizaciones están diseñadas para permitir que ChatGPT interactúe directamente con aplicaciones de tu computadora, ayudándote a automatizar tareas y optimizar tu flujo de trabajo.
3 puntos clave:
Interacción con aplicaciones en tu computadora:
Ahora ChatGPT puede trabajar directamente con aplicaciones como terminales (ej., Warp), IDEs (ej., Xcode, VS Code), y herramientas de escritura (ej., Notion, Apple Notes). Esto incluye funcionalidades como generar comandos, analizar datos, o completar documentos sin necesidad de copiar y pegar, simplificando tareas complejas.Control total y seguridad:
ChatGPT solo accede a las aplicaciones que seleccionas y puede extraer información relevante directamente desde estas. Esto garantiza que el usuario mantenga un control total sobre qué datos se comparten. Además, se integra perfectamente con características avanzadas como análisis de datos y búsqueda web, brindando respuestas precisas y contextuales.Nuevas opciones de interacción, incluyendo voz:
Además del clásico texto, ahora es posible interactuar con ChatGPT usando comandos de voz avanzados. Esta función permite una experiencia más dinámica y natural para tareas como editar documentos, organizar listas o recibir sugerencias personalizadas.
Veo 2, Imagen 3 y Whisk: Lo último en generación de video e imágenes de Google
Google ha presentado Veo 2, Imagen 3 y Whisk, tres herramientas avanzadas que redefinen la generación de video e imágenes con IA. Estas actualizaciones no sólo ofrecen resultados de calidad sin precedentes, sino que amplían las posibilidades creativas para usuarios y empresas.
Puntos clave:
Veo 2: Generación de video realista y cinematográfica
Veo 2 lleva la generación de video a nuevos niveles de realismo, entendiendo la física del mundo real y los matices del movimiento humano. Con soporte para resoluciones de hasta 4K y opciones de personalización cinematográfica (como lentes y profundidad de campo), el modelo es ideal para creadores de contenido, desde YouTube Shorts hasta proyectos empresariales. Además, incluye marcas de agua invisibles SynthID para identificar contenidos generados por IA y reducir la desinformación.Imagen 3: Imágenes de alta calidad y fidelidad estilística
Imagen 3 genera imágenes más brillantes, detalladas y con una fiel interpretación de los prompts. Soporta una amplia gama de estilos, desde fotorrealismo hasta anime, mejorando texturas, composiciones y diversidad artística. La herramienta estará disponible globalmente en más de 100 países a través de ImageFX, el generador de imágenes de Google Labs.Whisk: Fusionando imágenes para una creatividad única
Whisk permite combinar y mezclar imágenes para crear proyectos personalizados, como pins digitales o stickers. Utiliza las capacidades descriptivas del modelo Gemini y la potencia de Imagen 3 para transformar ideas visuales en nuevas composiciones, ofreciendo una herramienta divertida y versátil para la creatividad
Con Veo 2 e Imagen 3, Google reafirma su liderazgo en generación audiovisual con IA, brindando herramientas que no solo potencian la creatividad, sino que también abordan preocupaciones de seguridad mediante marcas de agua y despliegues graduales. La introducción de Whisk añade un enfoque innovador para la personalización visual, democratizando aún más el acceso a tecnologías avanzadas en arte y diseño.
Google lanza su modelo razonador “Gemini 2.0 Flash Thinking Experimental”
El modelo se detiene para pensar en problemas complejos como o1 de OpenAI, y muestra de manera explícita sus pensamientos.
Se puede usar de forma gratuita a través de AI Studio y la API de Gemini.
Introducing Gemini 2.0 Flash Thinking, an experimental model that explicitly shows its thoughts.
Built on 2.0 Flash’s speed and performance, this model is trained to use thoughts to strengthen its reasoning.
And we see promising results when we increase inference time… x.com/i/web/status/1…
— Jeff Dean (@JeffDean)
5:00 PM • Dec 19, 2024
El modelo del experimento Gemini 2.0 1206 ya está disponible en Gemini Advanced
Este nuevo modelo tiene un rendimiento significativamente mejorado en codificación, matemáticas, razonamiento, seguimiento de instrucciones y más.
Pruébalo en: https://gemini.google/advanced/
Gemini Advanced subscribers can try out gemini-exp-1206, our latest experimental model. Significantly improved performance on coding, math, reasoning, instruction following + more.
— Sundar Pichai (@sundarpichai)
5:05 PM • Dec 17, 2024
Con los modelos Gemini-2.0-Flash-Thinking-Exp-1219 y Gemini-Exp-1206, Google continúa en la primera posición en el ranking de lmarena, superando a los modelos de OpenAI.

Anthropic hace disponibles nuevas herramientas clave en su API
Anthropic ha anunciado mejoras importantes para desarrolladores al mover cuatro características clave de su API fuera de la fase beta. Estas herramientas simplifican la experiencia de desarrollo y facilitan la integración de IA avanzada en aplicaciones y flujos de trabajo.
Puntos clave:
Prompt caching y su expansión: Ahora está disponible de forma general en la API de Anthropic y en fase de prueba en Google Cloud Vertex AI y Amazon Bedrock, optimizando la reutilización de prompts para reducir costos y tiempos de respuesta.
Message Batches API ampliada: Permite enviar hasta 100k mensajes en un solo lote, con disponibilidad general en la API de Anthropic y acceso en versiones preliminares en Google Cloud y Amazon Bedrock.
Soporte mejorado: Token counting y el soporte de PDFs son ahora completamente accesibles tanto en la API de Anthropic como en Google Cloud Vertex AI, facilitando el análisis y manejo de textos estructurados.
Estas actualizaciones mejoran la eficiencia y escalabilidad para los desarrolladores, brindando herramientas robustas para gestionar grandes volúmenes de datos y modelos. La introducción del endpoint
/v1/models
también agrega mayor visibilidad sobre los modelos disponibles, simplificando el acceso y la implementación de soluciones con IA.
Quality of life update today for devs. Four features are moving out of beta to become generally available on the Anthropic API:
- Prompt caching
- Message Batches API (with expanded batches)
- Token counting
- PDF support— Alex Albert (@alexalbert__)
7:05 PM • Dec 17, 2024
Genesis: Impresionante Plataforma Todo-en-Uno para la Simulación Física y la IA Robótica
Genesis es una innovadora plataforma de simulación física diseñada para aplicaciones en robótica, IA incorporada y otros dominios de Inteligencia Artificial física. Desde un motor de física universal hasta un sistema generativo de datos, Genesis promete revolucionar la forma en que interactuamos con simulaciones físicas y generamos datos automatizados.
Puntos clave:
Motor de Física Universal y Velocidad Inigualable:
Genesis integra múltiples solucionadores de física en un marco unificado, permitiendo la simulación de una amplia gama de materiales y fenómenos físicos. Con un rendimiento hasta 80 veces más rápido que los simuladores GPU actuales, redefine los estándares en velocidad y fidelidad.Generación Automática de Datos con IA Generativa:
Su marco generativo convierte descripciones en lenguaje natural en datos multimodales, como escenas interactivas, tareas robóticas, movimientos de personajes y más. Esto reduce significativamente el esfuerzo humano en la recolección y creación de datos.Accesibilidad y Diferenciabilidad:
Desarrollado completamente en Python, Genesis ofrece una instalación fácil y una API intuitiva. Además, incluye soporte para simulación diferenciable, crucial para aplicaciones avanzadas como la optimización de robots y sensores táctiles físicamente precisos.
Genesis democratiza el acceso a simulaciones físicas complejas, haciéndolas más rápidas y accesibles para investigadores, desarrolladores y estudiantes. Su capacidad de automatizar la generación de datos acelera la investigación en robótica y IA, mientras que su diseño abierto fomenta la colaboración y el avance continuo. Con Genesis, el futuro de la simulación física y la IA robótica da un gran salto hacia adelante.
Everything you love about generative models — now powered by real physics!
Announcing the Genesis project — after a 24-month large-scale research collaboration involving over 20 research labs — a generative physics engine able to generate 4D dynamical worlds powered by a physics… x.com/i/web/status/1…
— Zhou Xian (@zhou_xian_)
10:34 PM • Dec 18, 2024
Robots
Interacción Humano-Objeto a partir de Instrucciones de Nivel Humano
Investigadores de Stanford han desarrollado un sistema innovador que genera interacciones físico-realistas entre humanos y objetos basándose en instrucciones de nivel humano. Este enfoque combina modelos de lenguaje, generación de movimientos detallados y simulaciones físicas para lograr interacciones precisas, incluyendo movimientos corporales completos, de dedos y objetos en entornos complejos.
Reflexiones Finales
Yann LeCun en el Consejo de las Naciones Unidas: 'La IA transformará profundamente el mundo en los próximos años'
Yann LeCun addressed the United Nations Council on Artificial Intelligence: "AI will profoundly transform the world in the coming years."
— Chubby♨️ (@kimmonismus)
6:18 PM • Dec 22, 2024