Boletín Semanal Best-IA #52

Aprende IA, día a día.

Tutoriales

4 métodos para mejorar imágenes con IA GRATIS

Analiza datos con Claude Sonnet 3.5

Noticias

OpenAI Lanza GPT-4o Mini: Más Rápido, Barato y Eficiente

  • OpenAI ha presentado su nuevo modelo de inteligencia artificial, GPT-4o mini, destacando por su rapidez y coste reducido en comparación con otros modelos avanzados. Disponible desde el 18 de julio para desarrolladores y usuarios a través de la web y la app de ChatGPT, y para empresas la próxima semana, GPT-4o mini promete revolucionar el uso de pequeños modelos de IA.

  • Puntos Clave:

    1. Rendimiento Superior en Tareas de Razonamiento:

    GPT-4o mini supera a los modelos pequeños líderes del mercado en tareas de razonamiento textuales y visuales, siendo ideal para desarrolladores que buscan eficiencia en velocidad y costo.

    2. Sustituto de GPT-3.5 Turbo:

    Con una puntuación del 82% en el benchmark MMLU, GPT-4o mini reemplaza a GPT-3.5 Turbo como el modelo más pequeño de OpenAI, destacando en comparación con modelos como Gemini 1.5 Flash y Claude 3 Haiku.

    3. Costo y Accesibilidad Mejorados:

    Este nuevo modelo es más del 60% más económico que GPT-3.5 Turbo, soportando texto e imagen inicialmente, con planes futuros para incluir video y audio. Su precio para desarrolladores es de 15 centavos por millón de tokens de entrada y 60 centavos por millón de tokens de salida.

  • Importancia e Implicaciones:

    El lanzamiento de GPT-4o mini representa un paso significativo hacia la democratización de la inteligencia artificial, haciéndola más accesible y asequible a nivel global. Esta innovación permite a más desarrolladores y empresas integrar IA en sus operaciones cotidianas, fomentando un uso más amplio y eficiente de la tecnología.

Mistral NeMo: Colaboración con NVIDIA para un Modelo de IA de Vanguardia

  • NeMo es el nuevo modelo de 12B desarrollado por Mistral en colaboración con NVIDIA. Mistral NeMo ofrece una ventana de contexto amplia de hasta 128k tokens, destacando en razonamiento, conocimiento del mundo y precisión en codificación en su categoría de tamaño. Gracias a su arquitectura estándar, Mistral NeMo es fácil de usar y puede reemplazar directamente a cualquier sistema que utilice Mistral 7B.

  • Puntos Clave:

    1. Modelo Multilingüe para Todos:

    Diseñado para aplicaciones globales y multilingües, Mistral NeMo es especialmente fuerte en idiomas como inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi.

    2. Nuevo Tokenizador Tekken:

    Utilizando el nuevo tokenizador Tekken, basado en Tiktoken, Mistral NeMo comprime textos y códigos fuente de manera más eficiente que el tokenizador SentencePiece usado en modelos anteriores. Tekken es aproximadamente un 30% más eficiente en la compresión de códigos fuente y varios idiomas, y hasta 3 veces más eficiente en coreano y árabe.

    3. Entrenamiento y Ajuste de Instrucciones:

    Mistral NeMo ha pasado por una fase avanzada de ajuste y alineación de instrucciones. Comparado con Mistral 7B, muestra una notable mejora en el seguimiento de instrucciones precisas, razonamiento, manejo de conversaciones múltiples y generación de código.

  • Importancia e Implicaciones:

    Mistral NeMo representa un avance significativo hacia la accesibilidad de modelos de IA avanzados para investigadores y empresas. Al estar disponible bajo la licencia Apache 2.0, se promueve su adopción en diversos campos. Este modelo no solo mejora la eficiencia y la precisión en múltiples idiomas, sino que también facilita la integración en sistemas existentes, potenciando su uso global.

  • Puedes probar Mistral NeMo y acceder a sus pesos en HuggingFace, o utilizarlo a través de la plataforma NVIDIA NIM. Para más información y acceso, visita ai.nvidia.com.

Mistral lanza Codestral Mamba para generar código más rápido y largo

  • La startup francesa de IA, Mistral, presentó los modelos Codestral Mamba 7B y Mathstral 7B.

    • Codestral Mamba, basado en la arquitectura Mamba, es ideal para la codificación local debido a su rapidez y ventanas de contexto más largas; superó a CodeLlama 7B y DeepSeek en pruebas HumanEval.

    • Mathstral 7B, desarrollado con Project Numina, está diseñado para el razonamiento matemático.

  • Ambos modelos están disponibles bajo licencia Apache 2.0 en GitHub y HuggingFace, reflejando el compromiso de Mistral con el código abierto.

  • LINK: https://mistral.ai/news/codestral-mamba/

  • LINK: https://mistral.ai/news/mathstral/

Hugginface lanza SmolLM: Modelos de IA Pequeños y Poderosos

  • Hugginface ha presentado SmolLM, una familia de modelos de lenguaje pequeños de última generación con 135M, 360M y 1.7B parámetros, entrenados en un nuevo conjunto de datos de alta calidad. Esta publicación cubre la curación de datos, evaluación de modelos y uso.

  • Puntos Clave:

    1. Tres Tamaños de Modelos de SmolLM:

    SmolLM está disponible en tres tamaños: 135M, 360M y 1.7B parámetros, todos entrenados en el corpus SmolLM-Corpus, que incluye Cosmopedia v2, Python-Edu y FineWeb-Edu.

    2. Curación de Datos Meticulosa:

    El corpus SmolLM-Corpus contiene datos de alta calidad, como Cosmopedia v2, generada por Mixtral, y FineWeb-Edu, que filtra páginas web educativas de FineWeb. Este enfoque garantiza una amplia gama de contenidos educativos y técnicos.

    3. Rendimiento Sobresaliente:

    SmolLM supera a otros modelos en su categoría de tamaño en diversos benchmarks de razonamiento y conocimiento común. Además, el nuevo tokenizador Tekken mejora significativamente la compresión de textos en múltiples idiomas.

  • Importancia e Implicaciones:

    SmolLM demuestra que los modelos de lenguaje pequeños pueden alcanzar un alto rendimiento con un entrenamiento eficiente en conjuntos de datos de alta calidad. Esto abre nuevas posibilidades para aplicaciones de IA en dispositivos locales, reduciendo costos y mejorando la privacidad. SmolLM está diseñado para ser accesible y adaptable, con compatibilidad para una variedad de configuraciones de hardware.

  • Prueba SmolLM en HuggingFace y explora las capacidades de estos modelos compactos y poderosos.

FlowGPT lanza Flow Studio, la primera plataforma de conversión de texto en película

  • Convierte cualquier idea en un vídeo de 3 minutos, sin necesidad de postedición.

DeepSeek abre el código de su modelo líder

  • DeepSeek ha abierto el código del checkpoint DeepSeek-V2-0628, convirtiéndose en el modelo de código abierto número uno en el Leaderboard de LMSYS Chatbot Arena.

    • Ranking Detallado:

      • Posición Global: No.11

      • Prompts Difíciles: No.3

      • Codificación: No.3

      • Consultas Largas: No.4

      • Matemáticas: No.7

Meta no lanzará las versiones multimodales de sus productos y modelos de IA en la UE

Apple publica Apple DCLM 7B, un LLM de código abierto de 7B

  • Apple ha sorprendido al mundo de la IA con el lanzamiento de DataComp-LM (DCLM), un modelo de lenguaje de 7 mil millones de parámetros (LLM) como código abierto, acompañado de pesos, código de entrenamiento y el conjunto de datos.

    Puntos Clave:

    1. Modelo y Entrenamiento: Este modelo base de 7B ha sido entrenado con 2.5 billones de tokens utilizando conjuntos de datos abiertos, predominantemente en inglés, y ofrece una ventana de contexto de 2048 tokens.

    2. Rendimiento y Comparación: En la prueba MMLU, el modelo alcanzó una puntuación de 0.6372, situándose por encima de Mistral pero por debajo de Llama3, demostrando un rendimiento comparable a modelos entrenados con datos cerrados como Mistral.

    3. Licencia y Disponibilidad: El modelo está disponible bajo una licencia abierta de Apple y se puede acceder a través de Hugging Face y Transformers.

  • Modelo: https://huggingface.co/apple/DCLM-7B 

  • Repositoriohttps://github.com/mlfoundations/dclm

  • Datasethttps://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0

  • Paperhttps://arxiv.org/abs/2406.11794

Reflexiones Finales

SE FILTRAN los PRÓXIMOS PASOS de OPENAI - ¿Qué es Q*? ¿Strawberry? ¿Es GPT-5?