Boletín Semanal Best-IA #58

Aprende IA, día a día.

Tutoriales

Tutorial Replit desde Cero

Noticias

OpenAI presenta la serie o1: Modelos avanzados de razonamiento para resolver problemas complejos

  • OpenAI ha presentado la serie de modelos o1, diseñada para realizar un razonamiento más profundo antes de responder. Esta serie incluye las versiones "o1-preview" y "o1-mini", que destacan por su capacidad de resolver problemas complejos en ciencia, codificación y matemáticas con diferentes niveles de eficiencia y costo.

  • Puntos clave:

    1. Modelos avanzados de razonamiento: La versión "o1-preview" ha demostrado una capacidad sobresaliente en tareas como la resolución de problemas matemáticos complejos, logrando una tasa de aciertos del 83% en el International Mathematics Olympiad (frente al 13% de GPT-4o). Mientras tanto, "o1-mini" ofrece un rendimiento similar en áreas STEM, pero con un enfoque en la eficiencia de costos.

    2. Diversidad de aplicaciones: "o1-preview" y "o1-mini" están diseñados para tareas especializadas en ciencia, codificación y matemáticas. Por ejemplo, "o1-mini", más rápido y económico, es ideal para usuarios que requieren razonamiento eficiente en tiempo real, mientras que "o1-preview" está mejor preparado para problemas más complejos.

    3. Enfoque en la seguridad: La serie o1 también introduce importantes mejoras en seguridad. Tanto "o1-preview" como "o1-mini" aplican razonamiento contextual para seguir directrices de seguridad, con "o1-preview" logrando un puntaje de 84 sobre 100 en pruebas avanzadas de resistencia a técnicas como el jailbreaking.La serie o1 representa un gran avance en la capacidad de los modelos de IA para realizar tareas complejas, posicionándose como una herramienta poderosa para profesionales en áreas técnicas y científicas. Además, sus mejoras en seguridad refuerzan la confiabilidad de estos sistemas, allanando el camino hacia una IA más eficiente y segura.

  • Con la serie o1, OpenAI ofrece una gama de modelos que van desde opciones más asequibles como "o1-mini" hasta versiones más avanzadas como "o1-preview", proporcionando soluciones adaptadas a distintas necesidades. Este avance marca un hito tanto en capacidades de razonamiento como en seguridad, haciendo de estos modelos herramientas clave para profesionales en campos científicos y técnicos.

DeepSeek-Coder-V2: La Alternativa de Código Abierto que Rivaliza con Modelos Privados en Inteligencia de Código

  • DeepSeek-Coder-V2 es un modelo de lenguaje especializado en código basado en Mixture-of-Experts (MoE), que ofrece un rendimiento similar a GPT-4 Turbo en tareas de programación. Este modelo de código abierto amplía las capacidades de su predecesor, DeepSeek-V2, gracias a un preentrenamiento con 6 billones de tokens adicionales.

  • Puntos clave:

    1. Rendimiento Competitivo:
      DeepSeek-Coder-V2 supera a modelos cerrados como GPT-4 Turbo, Claude 3 y Gemini 1.5 en benchmarks de programación y razonamiento matemático.

    2. Mayor Compatibilidad y Contexto:
      Expande su soporte a 338 lenguajes de programación (frente a 86 anteriormente) y puede manejar contextos de hasta 128K tokens.

    3. Modelos Disponibles y API Accesible:
      Disponible en variantes de 16B y 236B parámetros, DeepSeek-Coder-V2 puede ser descargado o usado mediante una API compatible con OpenAI, a un costo competitivo.

  • Este avance democratiza el acceso a modelos de inteligencia de código, ofreciendo a los desarrolladores una poderosa herramienta abierta que no solo rivaliza con modelos cerrados, sino que los supera en varias áreas clave.

Replit lanza su Replit Agent para crear apps de manera sencilla

  • Replit Agent es una herramienta de IA desarrollada por Replit que facilita la creación de aplicaciones de software a partir de descripciones simples en texto. Esta herramienta está diseñada para usuarios de todos los niveles de habilidad, permitiendo que incluso aquellos sin experiencia en programación puedan desarrollar aplicaciones funcionales.

  • Replit Agent funciona entendiendo prompts de lenguaje natural y asistiendo en la construcción de aplicaciones web desde cero. Los usuarios pueden ingresar descripciones detalladas de sus ideas de proyectos, y el agente selecciona las tecnologías apropiadas de manera autónoma. Además, Replit Agent puede configurar entornos de desarrollo, escribir código, gestionar despliegues y evaluar resultados, lo que simplifica significativamente el proceso de desarrollo de software.

Groq vuelve a ser líder en velocidad de inferencia

  • Groq ha establecido un nuevo récord de velocidad, reafirmando su liderazgo en el ámbito de la inferencia de IA. Según los últimos datos, utilizando su silicio de 14nm, Groq es capaz de generar 544 tokens por segundo para el modelo Llama 3.1 70B, superando ampliamente a competidores como Cerebras y las soluciones basadas en GPU de NVIDIA.

  • Este impresionante rendimiento de Groq no sólo garantiza inferencias más rápidas, sino que también abre la puerta a aplicaciones más ágiles y eficientes en el procesamiento de grandes modelos de lenguaje.

  • Groq también ha anunciado que sigue optimizando su tecnología para lograr una velocidad aún mayor.

FiveThirtyNine: IA de Pronóstico Superhumano para la Toma de Decisiones

  • La IA FiveThirtyNine, desarrollada por el Center for AI Safety y basada en GPT-4o, ha sido diseñada para realizar pronósticos superhumanos, proporcionando probabilidades sobre temas complejos como elecciones o conflictos geopolíticos. Este bot busca mejorar la precisión de las predicciones y reducir el sesgo en la toma de decisiones.

  • Puntos clave:

    1. Capacidades avanzadas: FiveThirtyNine puede generar pronósticos sobre cualquier consulta, utilizando búsquedas en la web y análisis de fuentes para ofrecer probabilidades calibradas. En pruebas, ha demostrado un rendimiento comparable al de crowdsourcing en plataformas de predicción.

    2. Aplicaciones amplias: Su uso puede ayudar a los responsables de políticas a tomar decisiones más informadas, reduciendo la influencia de intereses partidistas y fomentando un ecosistema informativo más fiable.

    3. Limitaciones y potencial futuro: Aunque el bot ha mostrado resultados sólidos, aún enfrenta desafíos, como la falta de ajuste fino y la predicción en eventos recientes. Sin embargo, su integración en modelos de IA promete mejorar la previsión global.

  • Herramientas como FiveThirtyNine pueden transformar la forma en que tomamos decisiones críticas, facilitando un debate más informado y minimizando el sesgo en un mundo cada vez más complejo.

  • Puedes probar la demo en: forecast.safe.ai.

  • LINK: https://www.safe.ai/blog/forecasting

DataGemma: Google Mejora la Precisión de la IA con Datos Reales

  • Google ha anunciado DataGemma, los primeros modelos abiertos diseñados para abordar el problema de las "alucinaciones" en los LLMs, mediante el uso de datos estadísticos del mundo real, extraídos de Data Commons.

  • Puntos Clave

    • 1. El desafío de las "alucinaciones" en IA: Los LLMs actuales, aunque potentes, a veces generan información incorrecta con gran confianza, un fenómeno conocido como "alucinación". DataGemma combate este problema conectando los modelos de lenguaje con datos precisos y confiables.

      2. Data Commons: una base de datos pública y confiable: Data Commons es un repositorio de datos estadísticos públicos de organizaciones como la ONU y la OMS. DataGemma aprovecha estos datos para verificar y mejorar la exactitud de las respuestas de los LLMs.

      3. Dos enfoques para mejorar la precisión: DataGemma utiliza dos métodos innovadores: RIG (Generación Intercalada con Recuperación) y RAG (Generación Aumentada con Recuperación), que permiten a los LLMs consultar y verificar datos en tiempo real para ofrecer respuestas más confiables.

  • DataGemma representa un avance significativo para mejorar la precisión y confianza en los modelos de IA, facilitando su adopción en investigaciones y toma de decisiones.

Audio Overviews: Google convierte tus notas en podcasts

  • Google acaba de lanzar Audio Overviews, una nueva función de NotebookLM que convierte notas, PDF, Google Docs, Slides, etc. en debates de audio generados por IA entre dos agentes virtuales de IA.

  • Puntos Clave

    • Audio Overview crea una conversación "en profundidad" a partir de las fuentes cargadas, con anfitriones de IA que resumen el contenido y conectan los temas entre los materiales.

    • La herramienta trabaja con varios tipos de fuentes (documentos, diapositivas, gráficos, URL de Internet) utilizando las capacidades multimodales de Gemini 1.5.

    • NotebookLM puede procesar hasta 50 fuentes, cada una de hasta 500.000 palabras, lo que permite tener en cuenta un total de 25 millones de palabras a la hora de generar el audio.

  • Los resúmenes sonoros pueden cambiar las reglas del juego para quienes aprenden de forma auditiva. Esta función funciona especialmente bien con trabajos académicos, libros electrónicos, libros de texto, presentaciones...

  • LINK: https://blog.google/technology/ai/notebooklm-audio-overviews/

Mistral lanza Pixtral 12B, su primer modelo multimodal capaz de procesar texto e imagen

  • La startup francesa Mistral ha presentado su primer modelo multimodal, Pixtral 12B, capaz de procesar imágenes y texto. Este modelo de 12 mil millones de parámetros, basado en el modelo de texto Nemo 12B, permite analizar imágenes de cualquier tamaño o cantidad, utilizando URLs o codificación base64. Al igual que modelos multimodales de otros gigantes como GPT-4, Pixtral 12B puede realizar tareas como generar descripciones de imágenes o contar objetos en una foto.

  • Puntos Clave

    • Capacidades y Flexibilidad: Pixtral 12B destaca por su capacidad para manejar imágenes y texto, permitiendo realizar múltiples tareas como la interpretación de imágenes a partir de diversas fuentes.

    • Acceso Abierto: Disponible en GitHub y Hugging Face bajo la licencia Apache 2.0, el modelo es gratuito, personalizable y se puede descargar para usos sin restricciones.

    • Controversia de los Datos: Aún no está claro qué datos de imágenes fueron utilizados para entrenar Pixtral 12B, en medio de debates sobre el uso de datos públicos y los derechos de autor en el desarrollo de IA.

  • El lanzamiento de Pixtral 12B refuerza la presencia de Mistral en la carrera por el liderazgo en IA multimodal, consolidando a la empresa como un fuerte competidor europeo frente a gigantes como OpenAI.

Runway lanza Gen-3 Alpha para todos los planes de pago

  • Esta actualización permite convertir vídeos existentes (o generados) en cualquier otro estilo de vídeo, de forma instantánea mediante indicaciones de texto.

Robots

Google DeepMind presentó dos nuevos sistemas de IA que avanzan en la destreza de los robots: ALOHA y DemoStart

  • Los sistemas utilizan métodos de difusión similares a los modelos de generación de imágenes para predecir las acciones del robot a partir de ruido aleatorio.

Reflexiones Finales

El Futuro de la IA ¿Burbuja o Realidad? ¿GPT-5 próximamente? | Feat. Andrés Torrubia