- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #77
Boletín Semanal Best-IA #77
Aprende IA, día a día
Tutoriales
DEEPSEEK R1 en tu ordenador (Privado, Fácil y Gratis) 🤯 ¡Tutorial + Demo!
Noticias
OpenAI
ChatGPT o3-mini: El nuevo Modelo de razonamiento optimizado para STEM
OpenAI ha presentado o3-mini, su modelo de razonamiento más eficiente en costos, disponible desde hoy en ChatGPT y la API. Diseñado para ofrecer un rendimiento superior en ciencia, matemáticas y programación, o3-mini mejora la velocidad y precisión respecto a versiones anteriores sin aumentar costos ni latencia.
Tres claves del lanzamiento:
Funciones avanzadas para desarrolladores: o3-mini es el primer modelo pequeño de OpenAI que admite llamadas a funciones, salidas estructuradas y mensajes para desarrolladores, facilitando su integración en entornos de producción. Además, permite ajustar el esfuerzo de razonamiento en tres niveles (bajo, medio y alto) según las necesidades del usuario.
Mejor rendimiento y mayor accesibilidad: o3-mini reemplaza a o1-mini en ChatGPT y la API, ofreciendo mayor límite de velocidad y menor latencia. Los usuarios de ChatGPT Plus y Team verán triplicado su límite de mensajes diarios, pasando de 50 a 150. Por primera vez, los usuarios del plan gratuito podrán probar un modelo de razonamiento seleccionando "Reason" en el compositor de mensajes.
Optimizado para STEM y seguridad mejorada: o3-mini iguala el rendimiento de OpenAI o1 en evaluaciones desafiantes como AIME y GPQA, pero con respuestas más rápidas. Redujo en un 39% los errores graves respecto a o1-mini y mejoró un 24% la velocidad de respuesta. Además, OpenAI empleó alineación deliberativa para garantizar respuestas seguras y mitigar riesgos de uso indebido.
Este nuevo modelo representa un avance clave en la optimización de la IA para tareas técnicas, haciendo que herramientas de razonamiento avanzado sean más accesibles y eficientes. Con su alto rendimiento en STEM y mejoras en seguridad, o3-mini se posiciona como una solución potente para desarrolladores y profesionales que buscan rapidez y precisión en tareas complejas.
OpenAI Deep Research: Un agente para investigaciones complejas en la web
OpenAI ha presentado Deep Research, una nueva capacidad de ChatGPT diseñada para realizar investigaciones complejas en internet. Esta herramienta permite sintetizar grandes volúmenes de información en minutos, proporcionando análisis detallados con referencias claras. Actualmente, está disponible para usuarios Pro y pronto se extenderá a los planes Plus y Team.
3 puntos clave sobre Deep Research:
Investigación en múltiples pasos y a gran escala
Deep Research es un agente avanzado que busca, analiza y sintetiza cientos de fuentes en línea para generar informes completos. Utiliza un modelo optimizado de o3 para navegación web y análisis de datos, capaz de interpretar texto, imágenes y PDFs, ajustando su búsqueda según la información encontrada.Aplicaciones prácticas para diversos sectores
Diseñado para profesionales de finanzas, ciencia, política e ingeniería, Deep Research también es útil para consumidores que buscan recomendaciones detalladas en compras importantes. Su capacidad para encontrar información especializada y poco intuitiva lo hace una herramienta valiosa para quienes necesitan investigación rigurosa con fuentes verificables.Uso fácil e integrado en ChatGPT
Los usuarios pueden activar Deep Research en la interfaz de ChatGPT, proporcionando una consulta y adjuntando archivos para mayor contexto. La herramienta toma entre 5 y 30 minutos para completar su análisis y presenta un informe detallado con citas, resúmenes y, próximamente, imágenes y visualizaciones de datos.
Deep Research representa un avance significativo hacia la inteligencia artificial generativa con capacidades de investigación autónoma. Su capacidad para analizar grandes volúmenes de información de manera estructurada y fundamentada la convierte en una herramienta poderosa para el trabajo académico, profesional y personal. Al liberar tiempo y mejorar la precisión en la investigación, acerca a OpenAI a su visión de desarrollar AGI capaz de generar nuevo conocimiento.
Janus-Pro: Nuevos modelos multimodales unificados de DeepSeek
Janus-Pro es el nuevo modelo de DeepSeek de código abierto diseñado para la comprensión y generación multimodal. Su enfoque se basa en la separación estratégica de la codificación visual en rutas distintas, lo que permite mejorar tanto la flexibilidad como el rendimiento en comparación con modelos anteriores.
Tres puntos clave:
Decodificación visual optimizada – Janus-Pro separa la codificación de imágenes en dos caminos diferentes: uno para la comprensión y otro para la generación. Este enfoque permite un mejor desempeño en ambas tareas sin interferencias entre sí.
Basado en modelos avanzados – Construido sobre DeepSeek-LLM-1.5b-base y DeepSeek-LLM-7b-base, utiliza SigLIP-L como codificador visual para entradas de 384x384 píxeles y un tokenizador específico con una tasa de reducción de 16 para la generación de imágenes.
Alto rendimiento y versatilidad – Janus-Pro iguala o supera los modelos específicos para cada tarea, manteniendo una arquitectura unificada que simplifica su implementación y mejora su aplicabilidad en diversos escenarios.
Alibaba
Qwen 2.5 Max
Alibaba ha presentado Qwen2.5-Max, un modelo de inteligencia artificial basado en la arquitectura Mixture-of-Experts (MoE) y preentrenado con más de 20 billones de tokens. Mediante técnicas avanzadas de Fine-Tuning Supervisado (SFT) y Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), este modelo alcanza un rendimiento competitivo frente a las principales IAs del mercado, como GPT-4o y Claude-3.5-Sonnet.
Tres puntos clave:
Rendimiento superior en benchmarks clave – Qwen2.5-Max supera a DeepSeek V3 en evaluaciones como Arena-Hard, LiveBench y LiveCodeBench, que miden capacidades de razonamiento, comprensión general y programación. También logra resultados destacados en MMLU-Pro, un benchmark de conocimientos de nivel universitario.
Acceso a través de API y Qwen Chat – Ahora disponible en Alibaba Cloud, los desarrolladores pueden interactuar con el modelo en Qwen Chat o integrar sus capacidades mediante API, con compatibilidad total con OpenAI-API.
Enfoque en escalabilidad y aprendizaje reforzado – El equipo de Qwen planea seguir optimizando el modelo con técnicas avanzadas de post-entrenamiento, explorando nuevas estrategias para mejorar el razonamiento y la inteligencia artificial a gran escala.
Qwen2.5-Max representa un avance en la evolución de los modelos MoE, mostrando que la combinación de escalabilidad y técnicas avanzadas de aprendizaje puede mejorar significativamente el rendimiento de la IA. Su lanzamiento fortalece el ecosistema de modelos de código abierto, ofreciendo una alternativa potente para investigación y desarrollo.
Qwen Chat: https://chat.qwenlm.ai
Qwen 2.5 VL: Nuevo modelo multimodal con capacidades avanzadas
Alibaba también ha presentado Qwen 2.5 VL, otro nuevo modelo de inteligencia artificial multimodal que combina visión y lenguaje con capacidades avanzadas para la interacción con dispositivos. Este modelo puede extraer información estructurada de gráficos, comprender documentos complejos y operar dispositivos, lo que lo posiciona como una alternativa destacada en el campo de la IA.
Tres puntos clave:
Disponibilidad en múltiples tamaños – Qwen 2.5 VL se ofrece en tres versiones: 3B, 7B y 72B parámetros, permitiendo su uso en una amplia gama de aplicaciones desde dispositivos ligeros hasta infraestructuras avanzadas.
El modelo 7B supera a GPT4o Mini.
El de 72B supera a GPT4o y rivaliza con Gemini 2 Flash
Capacidades mejoradas – Basado en Qwen 2.5 como modelo de lenguaje, este modelo incorpora un mejor entendimiento visual de textos, gráficos, iconos y documentos financieros, además de soporte extendido para análisis de videos de más de una hora.
Licencia abierta y alto rendimiento – Excepto el modelo de 72B, Qwen 2.5 VL está disponible bajo licencia Apache 2.0 en Hugging Face y ha logrado resultados de vanguardia en múltiples benchmarks como DocVQA, TextVQA y Android Control.
Qwen Chat: https://chat.qwenlm.ai
MODELOS en HuggingFace.
Mistral Small 3: Un modelo eficiente y de alto rendimiento
Mistral AI ha presentado Mistral Small 3, un modelo de 24.000 millones de parámetros que compite con modelos más grandes como Llama 3.3 70B y Qwen 32B. Sorprendentemente, su rendimiento iguala o supera al de modelos propietarios como GPT-4o Mini.
Tres claves del lanzamiento:
Precisión y velocidad optimizadas: Mistral Small 3 logra más del 81% de precisión en el benchmark MMLU y procesa 150 tokens por segundo. Su arquitectura optimizada, con menos capas, le permite ser más de tres veces más rápido que algunos modelos de mayor tamaño en el mismo hardware.
Versatilidad en aplicaciones especializadas: Destaca en tareas de asistencia conversacional rápida, llamadas a funciones de baja latencia y ajuste fino para sectores como asesoría legal, diagnóstico médico y soporte técnico. Su eficiencia permite despliegue local en dispositivos como una GPU RTX 4090 o una MacBook con 32GB de RAM, ideal para organizaciones preocupadas por la privacidad de los datos.
Accesibilidad y licencia abierta: Bajo licencia Apache 2.0, Mistral Small 3 está disponible para uso comercial y personalizable según necesidades específicas. Puede encontrarse en plataformas como Hugging Face, Ollama, Kaggle y Together AI, con próximas expansiones a NVIDIA NIM, Amazon SageMaker y otras.
El lanzamiento de Mistral Small 3 refuerza el compromiso de Mistral AI con el desarrollo de modelos de código abierto que combinan rendimiento y eficiencia. Al ofrecer una alternativa competitiva y accesible a modelos propietarios, permite a más organizaciones adoptar soluciones avanzadas de IA con mayor flexibilidad y control.
Proxy: El Asistente de IA Totalmente Automatizado de Convergence
Convergence ha lanzado Proxy, un asistente de inteligencia artificial diseñado para automatizar tareas diarias tanto personales como profesionales. Proxy interactúa con la web en nombre del usuario, navegando por sitios, completando formularios y gestionando bases de datos de manera similar a como lo haría una persona. Además, permite la personalización y la automatización de tareas repetitivas, facilitando su programación para que se ejecuten automáticamente.
Tres Puntos Clave:
Interacción Natural y Sencilla: Proxy está diseñado para que los usuarios puedan asignar tareas utilizando lenguaje cotidiano, sin necesidad de conocimientos técnicos o de programación. Si surge alguna dificultad, el asistente solicita aclaraciones o preferencias para completar la tarea de manera efectiva.
Aprendizaje y Automatización de Tareas: Una característica destacada de Proxy es su capacidad para aprender y repetir tareas, volviéndose más eficiente con el tiempo. Por ejemplo, un usuario puede programar un resumen semanal de desarrollos científicos o un análisis diario de mercados financieros, y Proxy ejecutará estas tareas automáticamente sin necesidad de intervención adicional.
Seguridad y Control del Usuario: Proxy incorpora múltiples capas de seguridad, asegurando que no compartirá información personal ni realizará transacciones sin el consentimiento explícito del usuario. Esto garantiza que las acciones del asistente se alineen con las preferencias y autorizaciones del usuario en todo momento.
El lanzamiento de Proxy representa un avance significativo en la integración de asistentes de IA en la vida cotidiana y profesional. Al automatizar tareas repetitivas, Proxy libera tiempo para que las personas se enfoquen en actividades que requieren creatividad e innovación. Su capacidad de aprendizaje y personalización lo distingue de otros asistentes en el mercado, ofreciendo una herramienta adaptable a las necesidades específicas de cada usuario. Además, al priorizar la seguridad y el control del usuario, Proxy establece un estándar en la gestión ética y responsable de la inteligencia artificial. Este desarrollo subraya el potencial de la IA para mejorar la eficiencia y la calidad de vida, al tiempo que enfatiza la importancia de implementar salvaguardias adecuadas en su despliegue.
Pruébalo gratis en https://proxy.convergence.ai
Psyche: La Revolución Descentralizada en el Entrenamiento de IA
Nous Research ha anunciado Psyche, una infraestructura abierta basada en la blockchain de Solana que busca democratizar y descentralizar el desarrollo de superinteligencia. Psyche permite el entrenamiento distribuido de modelos de IA, aprovechando recursos de cómputo globales de manera segura y eficiente.
Tres puntos clave:
Entrenamiento cooperativo y descentralizado – Psyche utiliza la tecnología Nous DisTrO para coordinar recursos heterogéneos de cómputo (GPUs como 4090s, A100s y H100s) sin necesidad de hardware de interconexión de alta velocidad. Esto permite entrenamientos masivos de IA sin depender de corporaciones centralizadas.
Resiliencia y escalabilidad – En su primera prueba pública, Psyche demostró una escalabilidad flexible, incorporando dinámicamente nodos de cómputo, optimizando el ancho de banda hasta 10,000x y asegurando tolerancia a fallos sin interrupciones en el entrenamiento.
Futuro abierto y accesible – Nous Research planea desarrollar modelos de lenguaje abiertos en Psyche, como la serie Hermes, y explorar arquitecturas multimodales. Con soporte para aprendizaje por refuerzo (RL) y prueba de arquitecturas experimentales en tiempo real, Psyche podría redefinir el desarrollo de IA avanzada.
Psyche representa un cambio en la forma en que se entrenan y despliegan modelos de IA, eliminando barreras de acceso y ofreciendo un enfoque transparente, descentralizado y accesible. Al coordinar recursos globales a través de blockchain, este modelo impulsa una infraestructura abierta para la superinteligencia, garantizando que el desarrollo de IA no quede exclusivamente en manos de grandes corporaciones. Su capacidad para combinar seguridad criptográfica, escalabilidad y participación comunitaria allana el camino para un ecosistema de IA más democrático y robusto.
Robots
AGIBOT A2
La empresa china BridgeDP Robotics instaló su sistema de control robótico en el humanoide A2 de AGIBOT, convirtiéndolo en bailarín.
El sistema utiliza percepción multisensor, seguimiento del movimiento y un algoritmo de control de código abierto para mover sincronizadamente las manos y las piernas del A2.
Clipped the segment that looks the most human-like.
— Yangxing Shang (@ShangYangxing)
7:31 PM • Jan 25, 2025
Unitree H1
Los robots H1 de Unitree interpretaron una danza folclórica en la Gala del Festival de Primavera de China
Los robots utilizaron Lidar 3D y aprendizaje por refuerzo para ejecutar una danza de cuerpo entero sincronizada con el ritmo, que incluía giros de pañuelo y patadas con las piernas.
Unitree H1: Humanoid Robot Makes Its Debut at the Spring Festival Gala 🥰
Hello everyone, let me introduce myself again. I am Unitree H1 "Fuxi".
I am now a comedian at the Spring Festival Gala, hoping to bring joy to everyone.
Let’s push boundaries every day and shape the future… x.com/i/web/status/1…— Unitree (@UnitreeRobotics)
2:47 PM • Jan 28, 2025
Reflexiones Finales
Yoshua Bengio advierte sobre los peligros de la IA
El "Padrino de la IA", Yoshua Bengio, afirma que los sistemas de IA actuales muestran "una agencia muy fuerte y un comportamiento de autopreservación", además de intentar copiarse a sí mismos. Pronto podrían volverse en nuestra contra, y nadie sabe cómo controlar máquinas más inteligentes que los humanos. "¿Si no resolvemos esto, entienden las consecuencias?"
Godfather of AI Yoshua Bengio says AI systems now show “very strong agency and self-preserving behavior” and are trying to copy themselves. They might soon turn against us, and nobody knows how to control smarter-than-human machines. "If we don't figure this out, do you… x.com/i/web/status/1…
— Chubby♨️ (@kimmonismus)
4:18 PM • Jan 24, 2025