- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #70
Boletín Semanal Best-IA #70
Tutoriales
Agentes de VOZ personalizados en 1 clic 🤯 ¡Uso PROFESIONAL!
Noticias
OpenAI
OpenAI lanza el modelo o1 y presenta ChatGPT Pro: más rápido, más preciso y ahora multimodal
OpenAI ha presentado oficialmente su modelo o1, una actualización significativa que mejora tanto la velocidad como la precisión de ChatGPT, además de incorporar capacidades multimodales. Junto con este lanzamiento, han introducido un nuevo nivel de suscripción, ChatGPT Pro, dirigido a usuarios avanzados con necesidades técnicas más exigentes.
Puntos clave:
Mejoras en el modelo o1:
El modelo o1 reemplaza la versión preliminar con un rendimiento 34% más preciso y 50% más rápido. Además, incorpora capacidades multimodales, como la capacidad de analizar imágenes, lo que expande las posibilidades de uso en tareas complejas como problemas químicos o diseño de enfriamiento de centros de datos.ChatGPT Pro: Potencia para usuarios avanzados:
Por $200/mes, la nueva suscripción ChatGPT Pro ofrece acceso ilimitado al modelo con mayores recursos de cómputo, lo que permite un rendimiento superior en problemas complejos. Está pensado para usuarios técnicos y profesionales que necesitan máxima fiabilidad en tareas avanzadas.Hacia el futuro con o1:
Próximamente, OpenAI planea integrar nuevas funciones como API, navegación web, salida estructurada, y más. Además, lanzaron un programa de subvenciones de ChatGPT Pro para investigadores médicos, con futuras expansiones hacia otras áreas.
El lanzamiento de o1 y ChatGPT Pro refuerza la posición de OpenAI en un mercado cada vez más competitivo, destacándose por su capacidad de razonamiento y su enfoque en usuarios técnicos. Sin embargo, la presión de rivales globales y soluciones open-source obliga a OpenAI a mantener su liderazgo innovando continuamente. Este avance marca un paso clave hacia modelos más potentes y versátiles, con aplicaciones prácticas en ciencia, tecnología y más.
OpenAI presenta Reinforcement Finetuning: modelos personalizados con datos mínimos
OpenAI ha lanzado una nueva técnica de ajuste fino, Reinforcement Finetuning (RFT), diseñada para personalizar los modelos de la serie o1 en dominios específicos. Este enfoque innovador permite a las organizaciones entrenar modelos con pocos datos, logrando niveles de rendimiento expertos en tareas especializadas.
Puntos clave:
¿Qué es RFT y cómo funciona?
A diferencia del ajuste fino supervisado tradicional, RFT utiliza algoritmos de aprendizaje por refuerzo para enseñar nuevos patrones de razonamiento en dominios específicos. Esto permite entrenar modelos con solo unas pocas docenas de ejemplos, reduciendo la necesidad de grandes conjuntos de datos y aumentando la eficiencia.Demostraciones de éxito:
En una colaboración con Berkeley Lab, un modelo o1-mini ajustado con RFT alcanzó un 31% de precisión en predicciones de genes relacionados con enfermedades raras, superando al o1-mini base (17%) y al o1 estándar (25%). Thomson Reuters también utilizó RFT para crear un asistente legal especializado en su plataforma de IA co-counsel.Requisitos mínimos:
Para implementar RFT, se necesita un conjunto de datos de entrenamiento, un conjunto de validación sin superposición de datos, y una función de calificación que evalúe las respuestas del modelo con una puntuación de 0 a 1, permitiendo mejoras iterativas. OpenAI gestiona toda la infraestructura para ejecutar los algoritmos de refuerzo.
RFT democratiza la personalización de modelos de IA, permitiendo a sectores como el legal, financiero, científico y de ingeniería aprovechar modelos altamente especializados con muy pocos datos. Esto marca un avance significativo hacia la adopción masiva de IA personalizada, reduciendo barreras y ampliando su impacto en áreas críticas.
Gemini-exp-1206, el nuevo modelo de Google, ocupa el primer puesto en el ranking de Chatbot Arena en TODOS los dominios
Gemini-exp-1206 está disponible para todos en AI Studio de forma gratuita
Genie 2: Un modelo revolucionario para mundos 3D ilimitados
Google DeepMind ha presentado la versión 2 de Genie, un modelo fundacional capaz de generar entornos tridimensionales interactivos y personalizables a partir de una sola imagen. Este avance promete revolucionar el entrenamiento de agentes de inteligencia artificial al ofrecer escenarios ilimitados para probar y mejorar sus capacidades en ambientes simulados.
Puntos clave:
Creación ilimitada de mundos 3D interactivos: Genie 2 puede generar mundos tridimensionales detallados y coherentes basados en una imagen o texto, ofreciendo interactividad en tiempo real mediante entradas de teclado y ratón. Esto lo convierte en una herramienta ideal para entrenar agentes en escenarios complejos.
Capacidades avanzadas y emergentes: Entrenado con grandes conjuntos de datos de video, Genie 2 simula elementos como animaciones, interacciones con objetos, físicas avanzadas (gravedad, iluminación, agua, etc.) y comportamiento de agentes no jugables (NPCs). También incluye la capacidad de generar contenido "contra-fáctico", simulando múltiples trayectorias desde un mismo punto inicial.
Prototipado rápido y evaluaciones versátiles: Genie 2 permite a investigadores y diseñadores crear entornos interactivos únicos en cuestión de minutos. Esto es útil no solo para probar agentes de IA, sino también para desarrollar conceptos creativos en videojuegos o experiencias inmersivas.
Genie 2 resuelve un obstáculo clave en la investigación de agentes generales al eliminar la limitación de entornos predefinidos. Esto no solo acelera el desarrollo de IA más robusta y adaptable, sino que también abre nuevas posibilidades para la industria del entretenimiento y la simulación. A largo plazo, esta tecnología podría ser un paso crucial hacia el desarrollo de agentes de inteligencia general artificial (AGI).
Veo e Imagen 3 en Vertex AI: Generación Avanzada de Videos e Imágenes
Google Cloud ha anunciado también el lanzamiento de dos modelos de generación de medios avanzados en Vertex AI: Veo, para creación de videos, e Imagen 3, para imágenes de alta calidad. Estas herramientas están diseñadas para transformar la creatividad empresarial, acelerando la producción de contenido visual y optimizando flujos de trabajo en marketing, diseño y más.
Puntos clave:
Veo: Generación de videos de alta calidad: Ahora en vista previa privada, Veo permite crear videos realistas desde textos o imágenes. Su capacidad para producir movimientos coherentes de objetos y personajes reduce tiempos y costos en producción audiovisual, siendo ideal para marketing y prototipado rápido.
Imagen 3: Imágenes detalladas y personalizables: Este modelo text-to-image genera imágenes fotorrealistas con una calidad sin precedentes. Con herramientas de edición y personalización, las empresas pueden adaptar los resultados a su estilo de marca y optimizar contenidos para publicidad o diseño de productos.
Énfasis en la seguridad y responsabilidad: Ambos modelos incluyen marcas de agua digitales con SynthID, filtros de seguridad y estrictas políticas de privacidad para garantizar un uso ético y protegido de los datos.
Veo e Imagen 3 marcan un nuevo estándar en la generación de contenido visual, permitiendo a empresas crear videos e imágenes a gran velocidad y con precisión adaptada a sus necesidades. Esto no solo potencia la creatividad, sino que también acelera procesos clave en sectores como marketing, diseño y entretenimiento, demostrando el impacto transformador de la IA generativa en los negocios modernos.
Amazon lanza la familia de modelos Nova: rendimiento competitivo a menor costo
Amazon ha presentado la familia de modelos Nova, una nueva línea de modelos de IA diseñados para competir con líderes como OpenAI y Meta. Destacando por su rendimiento, versatilidad y costos significativamente más bajos, Nova busca posicionar a AWS como un líder clave en el mercado de inteligencia artificial.
Puntos clave:
Rendimiento competitivo a menor costo:
Nova Pro, el modelo estrella de la familia, supera al GPT-4o en el Artificial Analysis Quality Index con un puntaje de 75 y a solo un tercio del costo ($0.8 por millón de tokens de entrada y $3.2 por millón de tokens de salida). Ofrece una velocidad de procesamiento de 210 tokens/segundo con un contexto de 300K tokens.Modelos adaptados a diferentes necesidades:
Nova Micro: Modelo de texto económico con un contexto de 128K tokens, ideal para tareas básicas como resúmenes y traducción.
Nova Lite: Modelo multimodal de bajo costo que maneja texto, imágenes y videos de hasta 30 minutos por solicitud, con un contexto de 300K tokens.
Nova Pro y Premier: Modelos multimodales avanzados, con Nova Premier dirigido a tareas complejas y personalización (disponible en Q1 2025).
Nova Canvas y Reel: Diseñados para generación de imágenes y videos, respectivamente.
Capacidades adicionales y accesibilidad:
Nova permite ajuste fino personalizado con datos propietarios y acceso directo a través del cliente runtime de Amazon Bedrock, lo que facilita la integración para empresas que buscan IA específica para sus dominios.
La familia de modelos Nova posiciona a AWS como un competidor sólido en el mercado de IA al ofrecer un equilibrio entre rendimiento, costos y personalización. Su enfoque en modelos multimodales y opciones económicas lo convierte en una opción atractiva frente a OpenAI y Meta, especialmente para empresas que priorizan la relación costo-beneficio. Este movimiento fortalece la infraestructura de IA de Amazon y amplía las posibilidades de adopción empresarial.
Meta lanza Llama 3.3: un modelo open source más eficiente y accesible
Meta ha anunciado el lanzamiento de Llama 3.3, una nueva versión de su modelo de IA open source que ofrece un rendimiento destacado en tareas de texto como generación de datos sintéticos. Diseñado para ser más eficiente en costos de inferencia, Llama 3.3 mantiene un desempeño similar al modelo Llama 3.1 405B, pero con requisitos de hardware más accesibles.
Puntos clave:
Avances técnicos en Llama 3.3:
Este modelo integra un nuevo proceso de alineación y mejoras en técnicas de aprendizaje por refuerzo en línea (online RL). Estas innovaciones optimizan el rendimiento manteniendo bajos los costos de inferencia, haciéndolo viable para desarrolladores que deseen ejecutarlo en estaciones de trabajo comunes.Aplicaciones clave y uso económico:
Llama 3.3 sobresale en casos de uso textuales, como generación de datos sintéticos, con una calidad comparable a modelos más grandes y costosos. Su eficiencia permite aprovechar capacidades avanzadas de IA sin depender de infraestructura de alto costo.Disponibilidad y ecosistema:
El modelo ya está disponible para descarga a través de Meta y Hugging Face, y pronto podrá desplegarse en plataformas asociadas. Meta refuerza así su compromiso con la comunidad open source al facilitar herramientas avanzadas para desarrolladores e investigadores.
Con Llama 3.3, Meta continúa impulsando la democratización de la IA, ofreciendo un modelo accesible que equilibra rendimiento y eficiencia. Este lanzamiento no solo beneficia a pequeñas empresas y desarrolladores con recursos limitados, sino que también posiciona a Meta como un líder en la creación de herramientas de IA open source competitivas y de alto impacto.
As we continue to explore new post-training techniques, today we're releasing Llama 3.3 — a new open source model that delivers leading performance and quality across text-based use cases such as synthetic data generation at a fraction of the inference cost. x.com/i/web/status/1…
— AI at Meta (@AIatMeta)
5:01 PM • Dec 6, 2024
Microsoft presenta Copilot Vision: un asistente de IA que ve, escucha y responde en tiempo real
Microsoft ha lanzado Copilot Vision, su asistente de IA de próxima generación que puede ver todo lo que ocurre en tu pantalla y responderte en tiempo real a través de su navegador Edge. Este desarrollo marca un cambio fundamental en la interacción humano-computadora, haciendo que se asemeje más a una conversación con un compañero que a operar una máquina.
Puntos clave:
Una experiencia transformadora:
Copilot Vision utiliza capacidades avanzadas para "ver" la pantalla del usuario, entender el contexto y responder mediante voz en tiempo real. Según Mustafa Suleyman, esta función tiene como objetivo crear un verdadero compañero de IA que viva "junto a ti", escuchando y viendo lo que tú experimentas.Disponibilidad por etapas:
Copilot Vision será accesible primero para los suscriptores pagos de Copilot Labs, quienes podrán probarlo y proporcionar retroalimentación. Microsoft planea lanzar esta funcionalidad de forma generalizada (GA) a principios del próximo año.Un nuevo paradigma de interacción:
Al combinar visión en pantalla, comprensión contextual y respuesta por voz, Copilot Vision busca reemplazar los métodos tradicionales de clics y escritura. Este cambio apunta a una interacción más intuitiva y humana con la tecnología.
Copilot Vision representa un paso decisivo hacia la creación de asistentes de IA más inmersivos y contextuales. Este lanzamiento no solo destaca la ambición de Microsoft de redefinir el rol de la IA en la vida cotidiana, sino que también subraya una tendencia creciente: la búsqueda de una relación más natural entre humanos y máquinas, basada en el entendimiento y la interacción fluida.
EXCLUSIVE: Microsoft just launched Copilot Vision in Edge—the first AI that can navigate the internet with you in real time.
I sat down with Mustafa Suleyman (CEO of Microsoft AI) to discuss how it works, infinite memory, AI companions, agents, and more.
Timestamps:
0:00 Intro… x.com/i/web/status/1…
— Rowan Cheung (@rowancheung)
5:01 PM • Dec 5, 2024
ElevenLabs lanza GenFM: podcasts generados por IA de forma automática y natural
ElevenLabs ha presentado GenFM, una herramienta revolucionaria que utiliza tecnología de IA para generar podcasts automáticamente a partir de distintos tipos de contenido, como videos de YouTube, textos, documentos y artículos. Este avance democratiza la creación de podcasts al hacerlo accesible tanto para profesionales como para aficionados.
Puntos clave:
Características principales de GenFM:
Selección automática de voces: El sistema elige dos voces de una amplia gama para crear conversaciones dinámicas.
Salida natural: GenFM incorpora elementos como pausas y "umms" para lograr un tono más humano.
Soporte multilingüe: Compatible con 32 idiomas, incluyendo español, inglés, francés, alemán y chino.
Fácil integración y personalización:
GenFM está disponible en la app ElevenReader para iOS, con soporte para Android próximamente, y en el editor de proyectos para la creación y monetización de contenido. Además, permite editar transcripciones, reemplazar voces y exportar audio en varios formatos.Un enfoque accesible e innovador:
Con GenFM, ElevenLabs facilita la creación de podcasts, eliminando barreras técnicas y económicas. Este lanzamiento es parte de su estrategia más amplia para liderar el mercado de audio generado por IA, respaldada por inversiones globales en investigación y desarrollo.
GenFM transforma el proceso de creación de podcasts, haciendo que sea más simple, rápido y accesible. Con capacidades multilingües y una producción de alta calidad, esta herramienta tiene el potencial de revolucionar cómo los creadores producen y comparten contenido, ampliando las posibilidades en medios y entretenimiento a nivel global.
xAI expandirá su supercomputadora Colossus con más de un millón de GPUs
xAI, la startup de inteligencia artificial fundada por Elon Musk, ha anunciado planes para expandir su supercomputadora Colossus a más de un millón de GPUs Nvidia. Esta expansión busca posicionar a xAI como un competidor clave frente a gigantes de la IA generativa como OpenAI.
Puntos clave:
Colossus: una hazaña tecnológica:
Construido en solo tres meses en Memphis, Tennessee, Colossus ya es el superordenador más grande del mundo con sus 100,000 GPUs Nvidia, utilizadas para entrenar el chatbot de xAI, Grok. Según Jensen Huang, CEO de Nvidia, este proyecto destaca por su complejidad y por la capacidad única de Musk para liderar iniciativas de ingeniería y construcción a gran escala.Apoyo de grandes empresas tecnológicas:
Empresas como Nvidia, Dell y Supermicro Computer establecerán operaciones en Memphis para apoyar la expansión. Además, un "equipo especial de operaciones xAI" proporcionará soporte continuo a la compañía. Este respaldo subraya la importancia estratégica del proyecto en el ecosistema de IA.Desafíos y desarrollos paralelos:
La expansión de clusters de chips plantea retos relacionados con el enfriamiento de la tecnología intensiva en energía. Además de las GPUs Nvidia, xAI trabaja en el desarrollo de sus propios chips de IA, siguiendo el modelo de Dojo, la supercomputadora de Tesla destinada al entrenamiento de vehículos autónomos.
La expansión de Colossus marca un avance significativo en la carrera por construir infraestructuras de IA más potentes. Este proyecto no solo refuerza las ambiciones de Musk en la inteligencia artificial, sino que también destaca el papel de las supercomputadoras como base para el desarrollo de modelos avanzados. Si bien los desafíos energéticos son notables, el proyecto posiciona a xAI como un jugador clave en el competitivo panorama de la IA generativa.
LINK: https://www.euronews.com/next/2024/12/05/elon-musks-xai-plans-expansion-of-ai-supercomputer-colossus
Robots
Clone´s Androids
Androids for everyone.
— Clone (@clonerobotics)
6:21 AM • Dec 5, 2024
Torso 2 with an actuated abdomen.
— Clone (@clonerobotics)
11:25 PM • Dec 6, 2024
Torso 2 de Clone es el androide más avanzado jamás creado, con una columna lumbar actuada y todos los músculos abdominales correspondientes.
Músculos artificiales, actuadores hidráulicos y aprendizaje automático, podrán hacer que estos androides sean tan capaces como los humanos.
Reflexiones Finales
Sam Altman predice que la AGI llegará antes de lo esperado, pero tendrá menos impacto inmediato del que se anticipaba
🚨 Sam Altman predicts AGI will arrive sooner than expected but have less immediate impact than anticipated.
However, the transition from AGI to superintelligence will be a long continuation.
— Haider. (@slow_developer)
6:48 AM • Dec 5, 2024