Best-IA Newsletter
Posts
Boletín Semanal Best-IA #56

Boletín Semanal Best-IA #56

Aprende IA, día a día.

Best-IA
28 de agosto de 2024

Best-IA. ¡Aprende IA, día a día!

Tutoriales

Tutorial Fine-Tuning de ChatGPT

Crea IMÁGENES con TU CARA con FLUX (Gratis)

Noticias

Google lanza 3 actualizaciones de sus modelos Gemini 1.5 Flash y Gemini 1.5 Pro

Google ha lanzado tres nuevos modelos experimentales de Gemini 1.5:
- Un modelo Pro actualizado (mejor en codificación y prompts complejos).
- Un modelo Flash más pequeño (8B parámetros).
- Un modelo Flash mejorado.
El nuevo 1.5 Pro se sitúa ahora en el nº 2, y el nuevo 1.5 Flash en el nº 6 de la clasificación de Chatbot Arena.
Novedad para los usuarios de Gemini Advanced: Gemas (asistentes IA personalizados) y creación de imágenes con Imagen 3.

Cosine Genie - El Nuevo Desarrollador de Software con la Mejor Puntuación en el Mundo

Genie, desarrollado por Cosine, ha establecido un nuevo estándar en la inteligencia artificial aplicada a la ingeniería de software. Con una impresionante puntuación del 30.07% en la evaluación SWE-Bench, Genie supera significativamente a sus competidores, mostrando una capacidad sin precedentes para resolver problemas complejos de software.
Puntos Clave:
1. Entrenamiento Innovador: Genie fue entrenado con datos que emulan el razonamiento humano de ingenieros de software, permitiéndole abordar problemas nuevos y complejos con una lógica similar a la de un ser humano. Esto lo diferencia de otros modelos que se limitan a ajustar modelos base existentes.
2. Rendimiento Excepcional: Con una puntuación del 30.07% en SWE-Bench, Genie supera en un 57% al mejor modelo anterior y demuestra capacidades superiores en tareas como la planificación, recuperación de información y corrección de errores.
3. Auto-mejora Continua: Genie utiliza un proceso de auto-mejora, generando datos sintéticos que fortalecen su capacidad para corregir errores y mejorar sus soluciones, lo que incrementa su precisión con cada iteración.
Genie representa un avance significativo en la automatización de tareas complejas de ingeniería de software, ofreciendo una herramienta potente para equipos de desarrollo. Este modelo no solo promete aumentar la eficiencia y precisión, sino también cambiar la forma en que se realizan las tareas de software, acercándonos a un futuro donde la colaboración entre humanos e IA sea la norma en la ingeniería de software.

LINK: https://cosine.sh/blog/genie-technical-report

Fine-tuning de GPT-4o gratis hasta el 23 de septiembre

La nueva opción de fine-tuning para GPT-4o ofrece a los desarrolladores la capacidad de personalizar el rendimiento del modelo para casos de uso específicos, mejorando la precisión y eficiencia en aplicaciones diversas.
Con fine-tuning, los desarrolladores pueden adaptar GPT-4o a sus necesidades específicas, optimizando la estructura, tono y cumplimiento de instrucciones complejas, con tan solo unas pocas decenas de ejemplos.
Accesibilidad y Seguridad: La opción de fine-tuning está disponible para todos los desarrolladores en niveles de pago, con tokens gratuitos hasta el 23 de septiembre. Además, los modelos fine-tuned aseguran control total sobre los datos y múltiples capas de mitigación de seguridad.
LINK: https://openai.com/index/gpt-4o-fine-tuning/

CogVideoX: Nuevo Modelo Open Source para Generar Videos de alta calidad

Zhipu AI y la Universidad de Tsinghua han presentado CogVideoX, un innovador modelo de difusión basado en transformers, diseñado para generar videos a partir de descripciones textuales. Este modelo de código abierto destaca por su enfoque en la compresión eficiente de videos, empleando un Autoencoder Variacional 3D (VAE) que reduce la información tanto en las dimensiones espaciales como temporales.
1. Optimización de la Compresión y Alineación Textual: CogVideoX utiliza un transformador especializado que mejora la alineación entre el texto y el video, garantizando una integración profunda y coherente entre ambas modalidades.
2. Entrenamiento Progresivo para Videos de Larga Duración: Mediante técnicas de entrenamiento progresivo, el modelo es capaz de generar videos coherentes con movimientos complejos y de larga duración.
3. Pipeline de Procesamiento de Datos: Se ha desarrollado un pipeline avanzado de procesamiento de datos que incluye métodos de preprocesamiento y captioning de video, lo que mejora significativamente la calidad de generación y la alineación semántica.
CogVideoX ha demostrado un rendimiento superior en métricas automatizadas y evaluaciones humanas, consolidándose como un referente SOTA (state-of-the-art) en su categoría. Además, tanto los pesos del modelo VAE 3D como los de CogVideoX están disponibles públicamente, fomentando la colaboración y el avance en la investigación de IA generativa.

📢🔥Hot New Release: CogVideoX-5B, a new text-to-video model from @thukeg group (the group behind GLM LLM series)
- More examples from the 5B model in this thread👇
- GPU vram requirement on Diffusers: 20.7GB for BF16 and 11.4GB for INT8
- Inference for 50 steps on BF16: 90s on… x.com/i/web/status/1…
— Gradio (@Gradio)
12:36 PM • Aug 27, 2024

Repositorio en GitHub.
HUGGINGFACE: https://huggingface.co/THUDM/CogVideoX-5b

AINU: Nueva IA Detecta Cáncer e Infecciones Virales con Precisión Nanométrica

Un equipo científico del Centro de Regulación Genómica (CRG), la Universidad del País Vasco (UPV/EHU), el Donostia International Physics Center (DIPC) y la Fundación Biofísica Bizkaia (FBB, localizado en Instituto Biofísica) ha desarrollado una IA llamada AINU, capaz de diferenciar las células cancerosas de las normales y detectar infecciones virales en sus etapas iniciales. Este avance podría revolucionar las técnicas de diagnóstico y monitoreo de enfermedades.
Puntos clave:
1. Tecnología de Imágenes Avanzada: AINU analiza imágenes de alta resolución obtenidas mediante microscopía STORM, revelando estructuras celulares con precisión nanométrica, lo que permite detectar cambios en el núcleo celular imposibles de identificar con métodos convencionales.
2. Detección Temprana: La IA puede identificar alteraciones en el ADN y otros componentes nucleares poco después de la infección viral o de que una célula se vuelva cancerosa, ofreciendo la posibilidad de un diagnóstico más rápido y preciso.
3. Aplicaciones Futuras: Aunque aún enfrenta limitaciones técnicas para su uso clínico, AINU podría acelerar la investigación en células madre y contribuir al desarrollo de terapias personalizadas, así como a la reducción del uso de animales en la ciencia.
AINU representa un avance significativo en la medicina de precisión, con el potencial de mejorar los diagnósticos y tratamientos en el futuro, permitiendo intervenciones más tempranas y efectivas.
LINK: https://www.crg.eu/en/news/ai-spots-cancer-and-viral-infections-nanoscale-precision

HeAR: El modelo de IA de Google que detecta enfermedades a partir de sonidos corporales

Google ha desarrollado un modelo de IA llamado Health Acoustic Representations (HeAR) que promete revolucionar la forma en que detectamos y gestionamos enfermedades. Este modelo bioacústico se enfoca en analizar sonidos corporales, como la tos, la voz o la respiración, para identificar señales tempranas de enfermedades, lo que podría transformar el diagnóstico médico, especialmente en regiones con acceso limitado a servicios de salud.
LINK: https://blog.google/technology/health/ai-model-cough-disease-detection/

Cerebras Lanza la Solución de Inferencia más Rápida del Mundo, 20 Veces Superior a las GPU

Cerebras ha lanzado su nueva solución de inferencia, posicionándola como la más rápida del mundo para modelos de lenguaje, superando significativamente a las plataformas basadas en GPU. Esta innovación promete transformar el desarrollo y despliegue de aplicaciones de IA al ofrecer velocidades y precisiones sin precedentes.

Puntos Clave:
1. Velocidad y precio sin Comparación:
  Cerebras Inference permite generar hasta 1,800 tokens por segundo para el modelo Llama3.1 8B y 450 tokens por segundo para Llama3.1 70B, lo que representa una velocidad 20 veces mayor que las soluciones basadas en GPU de NVIDIA.
  Además, Cerebras Inference tiene los mejores precios del sector para la inferencia de alta velocidad.
2. Superando Barreras de Ancho de Banda:
  Aprovechando el chip WSE-3, Cerebras integra 44GB de SRAM en un solo chip, eliminando cuellos de botella en la memoria y logrando un ancho de banda de 21 petabytes/segundo, 7,000 veces superior al de las GPU actuales.
3. Precisión Máxima con Pesos de 16 Bits:
  A diferencia de otras soluciones que sacrifican precisión al reducir los pesos del modelo a 8 bits, Cerebras mantiene los pesos originales de 16 bits, garantizando respuestas de alta precisión con una mejora del 5% en comparación.
Importancia e Implicaciones: La capacidad de ofrecer inferencia a velocidades sin precedentes y con precisión optimizada redefine lo que es posible en el ámbito de la inteligencia artificial. Esto no solo mejora la experiencia del usuario final, sino que también habilita nuevas técnicas de procesamiento en tiempo real, como el "scaffolding", que multiplica la inteligencia operativa de los modelos de IA sin necesidad de reentrenamiento. Con su rendimiento récord y costos competitivos, Cerebras se posiciona para liderar la próxima ola de innovación en IA.
LINK: https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed
PRUÉBALO: https://inference.cerebras.ai/

Nous Research Revoluciona el Entrenamiento de Modelos de IA con DisTrO: Optimización Distribuida para Ancho de Banda Reducido

Nous Research ha presentado DisTrO (Distributed Training Over-the-Internet), una innovadora familia de optimizadores distribuidos diseñados para transformar la manera en que se entrenan grandes modelos de inteligencia artificial, como los modelos de lenguaje. En un campo donde el entrenamiento masivo requiere costosas infraestructuras y altos anchos de banda, DisTrO se destaca por reducir drásticamente la necesidad de comunicación entre GPUs, permitiendo entrenamientos eficientes incluso en redes con ancho de banda limitado. Esta reducción, de hasta cinco órdenes de magnitud, promete facilitar el acceso a la creación de modelos avanzados sin la necesidad de infraestructuras de red de alta velocidad.
El paper demuestra que DisTrO no solo reduce los requisitos de comunicación, sino que también mantiene la efectividad del entrenamiento. Al reemplazar el optimizador tradicional AdamW con DisTrO-AdamW en un modelo de lenguaje con 1.2 mil millones de parámetros, los investigadores lograron mantener la tasa de convergencia mientras reducían el tráfico de datos entre GPUs de 74.4 GB a apenas 86.8 MB por paso de entrenamiento. Este avance podría democratizar el acceso al entrenamiento de modelos de gran escala, permitiendo que se realicen en infraestructuras menos costosas y más accesibles.
DisTrO tiene el potencial de impactar significativamente en el futuro del desarrollo de inteligencia artificial. Al eliminar la barrera del alto ancho de banda, abre la puerta a nuevas posibilidades, desde el entrenamiento de modelos en ambientes descentralizados hasta la reducción del impacto ambiental asociado con los grandes centros de datos. Con este desarrollo, Nous Research no solo optimiza el proceso de entrenamiento de modelos, sino que también democratiza el acceso a la tecnología de punta en inteligencia artificial.
PAPER: https://github.com/NousResearch/DisTrO/blob/main/A_Preliminary_Report_on_DisTrO.pdf

Google presenta GameNGen, una IA capaz de simular en tiempo real el videojuego DOOM

Google ha presentado GameNGen, un innovador motor de juegos completamente impulsado por un modelo neuronal, capaz de simular entornos complejos en tiempo real con una calidad impresionante.
Puntos Clave:
1. Simulación en Tiempo Real: GameNGen puede simular el clásico juego DOOM a más de 20 cuadros por segundo utilizando solo una TPU, logrando una predicción de fotogramas con una calidad comparable a la compresión JPEG.
2. Dificultad para Diferenciar Realidad de Simulación: En pruebas con evaluadores humanos, los clips generados por GameNGen fueron casi indistinguibles de los clips reales del juego, subrayando el realismo del motor.
3. Entrenamiento en Dos Fases: GameNGen se entrena en dos fases clave: primero, un agente de aprendizaje por refuerzo aprende a jugar y se graban las sesiones; luego, un modelo de difusión se entrena para generar los fotogramas sucesivos, manteniendo la coherencia a lo largo del tiempo.
GameNGen representa un avance significativo en la integración de la inteligencia artificial en el desarrollo de videojuegos, abriendo la puerta a nuevas posibilidades para la creación de entornos interactivos hiperrealistas con menor costo computacional.

Wow, diffusion models (used in AI image generation) are also game engines - a type of world simulation.
By predicting the next frame of the classic shooter DOOM, you get a playable game at 20 fps without any underlying real game engine.
This video is from the diffusion model.
— Ethan Mollick (@emollick)
4:16 AM • Aug 28, 2024

PAPER: https://huggingface.co/papers/2408.14837

Ideogram 2.0 supera a Flux Pro y DALL·E 3 en calidad de generación de imágenes

Ideogram ha lanzado su modelo más avanzado de generación de imágenes a partir de texto: Ideogram 2.0. Esta versión no solo mejora significativamente la calidad de las imágenes, sino que también incluye nuevas funcionalidades y herramientas que lo posicionan por encima de competidores como Flux Pro y DALL·E 3.

Puntos clave:
1. Cinco estilos únicos: Ideogram 2.0 ofrece cinco estilos distintos para la creación de imágenes: General, Realista, Diseño, 3D y Anime. Destaca especialmente el estilo Realista, que permite generar imágenes fotográficas con detalles extremadamente precisos en texturas, piel, ojos y cabello.
2. Mejoras en diseño y texto: El estilo Diseño mejora notablemente la renderización de texto, permitiendo crear gráficos de alta calidad para tarjetas, camisetas y posters. Además, ofrece la posibilidad de seleccionar y personalizar paletas de colores para asegurar la coherencia visual en proyectos de marca.
3. Disponibilidad ampliada: Ideogram 2.0 está disponible de manera gratuita para todos los usuarios, y la empresa también ha lanzado una app para iOS, una versión beta de su API para desarrolladores y empresas, y la nueva herramienta de búsqueda, Ideogram Search.
Con estas mejoras, Ideogram 2.0 no solo establece un nuevo estándar en la calidad de generación de imágenes, sino que también se convierte en una herramienta accesible y poderosa para usuarios y empresas, superando a modelos líderes del mercado.
LINK: https://about.ideogram.ai/2.0

Robots

Unitree G1 mass production version

Unitree G1 mass production version, leap into the future!
Over the past few months, Unitree G1 robot has been upgraded into a mass production version, with stronger performance, ultimate appearance, and being more in line with mass production requirements. We hope you like it.🥳… x.com/i/web/status/1…
— Unitree (@UnitreeRobotics)
7:31 AM • Aug 19, 2024

En los últimos meses, el robot Unitree G1 se ha actualizado para convertirse en una versión de producción en serie, con un rendimiento más potente, un aspecto más moderno y más acorde con los requisitos de la producción en serie.

Boletín Semanal Best-IA #56

Aprende IA, día a día.

Tutoriales

Tutorial Fine-Tuning de ChatGPT

Crea IMÁGENES con TU CARA con FLUX (Gratis)

Noticias

Google lanza 3 actualizaciones de sus modelos Gemini 1.5 Flash y Gemini 1.5 Pro

Cosine Genie - El Nuevo Desarrollador de Software con la Mejor Puntuación en el Mundo

Fine-tuning de GPT-4o gratis hasta el 23 de septiembre

CogVideoX: Nuevo Modelo Open Source para Generar Videos de alta calidad

AINU: Nueva IA Detecta Cáncer e Infecciones Virales con Precisión Nanométrica

HeAR: El modelo de IA de Google que detecta enfermedades a partir de sonidos corporales

Cerebras Lanza la Solución de Inferencia más Rápida del Mundo, 20 Veces Superior a las GPU

Nous Research Revoluciona el Entrenamiento de Modelos de IA con DisTrO: Optimización Distribuida para Ancho de Banda Reducido

Google presenta GameNGen, una IA capaz de simular en tiempo real el videojuego DOOM

Ideogram 2.0 supera a Flux Pro y DALL·E 3 en calidad de generación de imágenes

Robots

Unitree G1 mass production version

Reflexiones Finales

Renta Básica Universal : El escenario final

Robots humanoides, mercado laboral y automatización masiva: el estado actual de la IA con Emad Mostaque