Boletín Semanal Best-IA #78

Aprende IA, día a día

Noticias

Gemini 2.0: Google DeepMind Expande su Ecosistema IA

  • Google DeepMind ha lanzado oficialmente Gemini 2.0, expandiendo su ecosistema de modelos de inteligencia artificial con versiones mejoradas para desarrolladores y usuarios avanzados. Con mayor potencia, capacidad de razonamiento y eficiencia de costos, Gemini 2.0 busca redefinir la interacción con modelos de IA en múltiples aplicaciones.

  • Claves del Lanzamiento:

    1. Gemini 2.0 Flash: Ahora Disponible para Todos
      La versión optimizada de Gemini 2.0 Flash ya está disponible en Google AI Studio y Vertex AI. Este modelo, diseñado para tareas de alto volumen y eficiencia, mantiene una ventana de contexto de 1 millón de tokens y pronto incluirá capacidades mejoradas como generación de imágenes y texto a voz.

    2. Gemini 2.0 Pro Experimental: La Mejor IA de Google para Código y Prompts Complejos
      La versión experimental de Gemini 2.0 Pro está pensada para desarrolladores avanzados y usuarios de Gemini Advanced. Su ventana de contexto de 2 millones de tokens permite manejar grandes volúmenes de información y realizar tareas complejas como razonamiento avanzado, generación de código y análisis profundo de datos. Además, es capaz de interactuar con herramientas externas como Google Search y ejecución de código.

    3. 2.0 Flash-Lite: IA Eficiente y de Bajo Costo
      Google presenta 2.0 Flash-Lite, una versión más económica y rápida que supera a 1.5 Flash en calidad manteniendo el mismo costo y velocidad. Este modelo es ideal para aplicaciones escalables y de alta demanda sin comprometer rendimiento.

    4. Multimodalidad y Mayor Contexto
      Todos los modelos de Gemini 2.0 admiten entrada multimodal con salida en texto. En los próximos meses, Google ampliará el soporte a más modalidades, potenciando la comprensión y generación de contenido en distintos formatos.

    5. Compromiso con la Seguridad y el Aprendizaje Autónomo
      Google ha integrado técnicas de aprendizaje por refuerzo, donde Gemini se autoevalúa para mejorar la precisión de sus respuestas. También ha implementado red teaming automatizado para detectar riesgos de seguridad como inyección de prompts maliciosos y mejorar la fiabilidad del modelo.

  • Gemini 2.0 consolida la apuesta de Google en IA generativa, ofreciendo soluciones más potentes para desarrolladores y empresas. Con mejoras en codificación, razonamiento y eficiencia de costos, la competencia con otros modelos avanzados, como GPT y Claude, se intensifica. Este lanzamiento no solo democratiza el acceso a IA avanzada, sino que también refuerza la seguridad y el control en el desarrollo de aplicaciones de inteligencia artificial.

Japón aspira a tener AGI para sus empresas en 2 años, gracias a “Crystal Intelligence“, un modelo exclusivo de OpenAI

  • Este modelo puede analizar y optimizar de forma autónoma todo el código fuente del sistema que una empresa ha desarrollado en los últimos 30 años.

  • Masayoshi Son también reveló planes para introducir la AGI (Inteligencia Artificial General) en Japón en los próximos dos años. Hizo hincapié en que la IA evolucionará hasta convertirse en una «Super Sabiduría» que beneficiará a toda la humanidad.

OpenAI y la Universidad Estatal de California llevan la IA a 500,000 estudiantes y docentes

  • OpenAI, en colaboración con Microsoft, ha anunciado el lanzamiento de una versión educativa de su chatbot ChatGPT para aproximadamente 500,000 estudiantes y personal docente de la Universidad Estatal de California (CSU). Esta iniciativa abarcará los 23 campus del sistema universitario público más grande de Estados Unidos, brindando a los estudiantes tutorías personalizadas y guías de estudio, mientras ayuda al personal docente con tareas administrativas.

  • El despliegue de ChatGPT Edu tiene como objetivo integrar la IA en los entornos educativos, abordando preocupaciones sobre el plagio y el fraude al ofrecer soluciones personalizadas para la educación superior. Otras universidades, como la Escuela Wharton de la Universidad de Pensilvania, la Universidad de Texas en Austin y la Universidad de Oxford, ya han adoptado ChatGPT Enterprise.

  • Esta asociación resalta el compromiso de OpenAI de mejorar las experiencias educativas mediante la IA, preparando a los estudiantes para el mercado laboral y contribuyendo al desarrollo de una fuerza laboral preparada para la IA en Estados Unidos.

  • LINK: https://openai.com/index/openai-and-the-csu-system/

HuggingFace se convierte en el mejor directorio de aplicaciones de IA de código abierto

La aplicación móvil de Replit ahora tiene su función de agente para crear apps gratis y sin código en tu teléfono

  • Ya disponible en la App Store. Pronto la versión Android.

Bytedance presenta Omnihuman-1, la IA capaz de crear algunos de los videos de Deepfake más realistas hasta la fecha

  • Con sólo una imagen y una pista de audio, puede generar videos humanos hiperrealistas, adaptándose perfectamente a cualquier relación de aspecto o forma del cuerpo.

  • OmniHuman-1 no está disponible para el público general. Pese a ello, el modelo han reavivado las preocupaciones en torno a los deepfakes.

Meta presenta VideoJam, un nuevo método para mejorar el movimiento en cualquier modelo Text-to-Video, mejorando significativamente su movimiento y física

Pika lanza Pikadditions, su nueva función de integración fluida de objetos, personas o elementos fantásticos en cualquier escena

Project Starlight: el primer modelo de difusión para la restauración de video

PlayAI lanza Diálog 1.0, su Modelo ultra emocional de texto a voz

Robots

π0: El Modelo de Robótica Abierta Más Avanzado Ya es Open-Source

  • La empresa Physical Intelligence ha liberado π0, su modelo fundacional de robótica, a través del repositorio openpi. Este modelo de Visión-Lenguaje-Acción es capaz de interpretar comandos en lenguaje natural y convertirlos directamente en acciones autónomas. Su código, pesos del modelo y herramientas de ajuste fino ahora están disponibles para la comunidad, permitiendo a investigadores adaptar π0 a distintas aplicaciones robóticas.

  • Lo Más Destacado de π0

    1. Un Modelo Generalista para la Robótica

    2. Disponibilidad y Facilidad de Fine-Tuning

    3. Variantes de π0 para Diferentes Aplicaciones

      • π0 Base: Entrenado en múltiples plataformas, listo para fine-tuning.

      • π0-FAST Base: Usa un tokenizador optimizado para seguir mejor instrucciones en lenguaje natural, aunque con un mayor costo computacional.

      • Modelos específicos: Versiones ajustadas para DROID, ALOHA y Libero.

    4. Acceso con PyTorch y Hugging Face

    5. Una IA Robótica Abierta y Colaborativa
      Physical Intelligence busca replicar en la robótica el progreso que han tenido los modelos de lenguaje (LLM) y visión (VLM) en el mundo open-source. Con soporte comunitario en GitHub y canales abiertos para feedback, el objetivo es impulsar el desarrollo de políticas robóticas generalistas que se adapten a múltiples entornos.

  • La liberación de π0 marca un paso significativo hacia la democratización de la inteligencia robótica. Al proporcionar un modelo potente y adaptable, investigadores y desarrolladores pueden explorar nuevas aplicaciones sin depender de soluciones propietarias. Este enfoque abierto puede acelerar la evolución de robots más inteligentes y versátiles, con aplicaciones desde la industria hasta la asistencia en el hogar.

T-Rex

  • T-Rex es un robot desarrollado por Agilex Robotics que combina ruedas y piernas para una forma única de moverse. T-REX puede acelerar a 20 kilómetros por hora y manejar fácilmente el terreno bachaposo. Puede funcionar durante casi dos horas con una sola carga y usa una cámara inteligente de IA para detectar obstáculos y cambiar su camino. Además, incluso puede subir con solo una pierna.

Meta PARTNR: Robots que interactúan mejor con las personas en entornos reales

  • Meta PARTNR es un marco de investigación diseñado para mejorar la colaboración fluida entre humanos y robots. Basado en estudios previos con Habitat, este proyecto de código abierto ofrece un benchmark a gran escala, un conjunto de datos y un modelo de planificación avanzada, con el objetivo de que la comunidad pueda entrenar robots sociales de manera más efectiva.

Reflexiones Finales

Sam Altam: “Avanzar en la IA puede requerir cambios en el contrato social"

  • “Toda la estructura de la sociedad estará en debate y reconfiguración”