Boletín Semanal Best-IA #40

Aprende IA, día a día

Tutoriales

Devin

  • Devin puede automatizar tareas complejas sin esfuerzo. Desde la creación de paquetes Python y su envío a GitHub, hasta la generación de proyecciones bursátiles precisas y resúmenes de sitios web.

Accede GRATIS a Stable Difussion 3

Curso Completo de LangChain en Español

Noticias

Microsoft lanza Phi-3 Mini para dispositivos móviles

  • Microsoft acaba de anunciar Phi-3, una nueva familia de pequeños modelos de lenguaje que superan a rivales de mayor tamaño, alcanzando nuevos hitos de referencia en la clase de modelos de IA de menor tamaño.

  • La familia de modelos Phi-3 está disponible en tres tamaños: Phi-3-mini con 3,8B de parámetros, Phi-3-small con 7B de parámetros y Phi-3-medium con 14B de parámetros.

  • Phi-3-mini es un modelo de lenguaje diseñado para ser suficientemente pequeño para ser desplegado en dispositivos móviles.

    • Con 3.8 mil millones de parámetros y entrenado con 3.3 billones de tokens, Phi-3 Mini ofrece un rendimiento que compite con gigantes como Mixtral 8x7B y GPT-3.5, alcanzando impresionantes resultados en benchmarks como MMLU y MT-bench, con una asombrosa ventana de contexto de 128k.

  • Este logro es posible gracias a un conjunto de datos ampliado y altamente filtrado, diseñado específicamente para maximizar la eficiencia sin comprometer la calidad.

  • El modelo ha sido alineado adicionalmente para mejorar su robustez, seguridad y su efectividad en formatos de chat.

  • 7B Phi-3-small y 14B Phi-3-medium todavía están siendo entrenados, y estarán disponibles en las próximas semanas.

NVIDIA presenta TeSMo, un método de generación de movimiento controlado por texto y consciente de la escena

  • TeSMo es un nuevo método para producir interacciones realistas hombre-objeto en escenas 3D, como navegar y sentarse, en diferentes escenas con varias formas de objeto, orientaciones, posiciones iniciales del cuerpo y poses.

  • Utiliza modelos de difusión de denoising para generar movimientos que interactúan con objetos y escenas bajo descripciones textuales especificadas por el usuario.

  • Los experimentos muestran que TeSMo supera a las técnicas anteriores en términos de plausibilidad de interacciones humanas-escena y realismo y diversidad de los movimientos generados.

  • Este estudio presenta un avance significativo en la generación controlada por texto de movimientos humanos que interactúan de manera realista con entornos en 3D, abriendo nuevas posibilidades para aplicaciones en animación, juegos y realidad virtual.

Memoria y nuevos controles para ChatGPT

  • ChatGPT ya puede recordar las cosas que se discuten para que los chats futuros sean más útiles.

  • Tú controlas la memoria de ChatGPT. Puedes decirle explícitamente que recuerde algo, preguntarle qué recuerda y decirle que lo olvide conversando o a través de la configuración. También puedes desactivarla por completo.

  • Esta semana se está probando esta función en una pequeña parte de los usuarios gratuitos y Plus de ChatGPT para comprobar su utilidad. Pronto se compartirán planes para un despliegue más amplio.

Las gafas Ray-Ban de Meta se vuelven multimodales

  • Meta acaba de anunciar que las capacidades multimodales se están extendiendo a todas las gafas inteligentes Ray-Ban Meta, integrando funciones de IA que pueden procesar y comprender el entorno del usuario.

  • El asistente de Meta, que antes se limitaba a interacciones sonoras, ahora puede procesar datos visuales de la cámara integrada en las gafas y ofrecer información relevante.

  • Los usuarios pueden pedir a las gafas que traduzcan texto, identifiquen objetos o proporcionen otra información contextual específica, todo ello con las manos libres.

  • Los usuarios también pueden compartir puntos de vista durante las videollamadas en WhatsApp y Messenger, lo que permite compartir experiencias en tiempo real y sin utilizar las manos.

  • La actualización multimodal de la IA estará disponible como función beta para todos los usuarios de Estados Unidos y Canadá.

  • LINK: https://about.fb.com/news/2024/04/new-ray-ban-meta-smart-glasses-styles-and-meta-ai-updates/

Apple presenta OpenELM

  • OpenELM es el nuevo LLM de Apple, diseñado para procesar y entender el lenguaje natural de manera eficiente. Utiliza una arquitectura basada en transformers, optimizada para un mejor rendimiento y precisión.

  • Uno de los principales avances de OpenELM es su método de escalado por capas, que asigna los parámetros del modelo de manera más eficiente en cada capa del transformador. Esto permite al modelo lograr una mayor precisión con menos datos de entrenamiento.

  • OpenELM se destaca por su transparencia y apertura. Todo el marco de entrenamiento y evaluación del modelo, incluidos los registros de entrenamiento, configuraciones y pesos del modelo, se publican de forma abierta. Esto facilita que otros investigadores repliquen y construyan sobre este trabajo.

  • En comparaciones con modelos de tamaño similar, OpenELM ha mostrado una mejora significativa en la precisión en diversas tareas de procesamiento de lenguaje natural. Esto se logra incluso utilizando menos tokens de preentrenamiento que modelos comparables.

  • También es compatible con MLX.

OpenCRISPR-1, el primer editor genético de código abierto desarrollado por IA capaz de editar el genoma humano

Robots

Astribot lanza Hello World, un robot doméstico que puede cocinar, limpiar, lavar la ropa, etc.

El auge de los robots con IA

Reflexiones Finales

12 predicciones locas que cambiarán el mundo según Vinod Khosla

  1. La experiencia será casi gratuita: Se prevé la existencia de doctores de IA y tutores de IA disponibles casi gratuitamente para cada persona y niño, respectivamente.

  2. El trabajo será casi gratuito: Se anticipa que habrá mil millones de robots bípedos y otros robots liberando a los humanos del trabajo indeseable.

  3. Uso masivo de la computadora: Se espera que haya más de mil millones de programadores programando en lenguaje humano, lo que cambiará drásticamente el alcance de las computadoras para adaptarse a los humanos en lugar de viceversa.

  4. Papel importante de la IA en el entretenimiento y el diseño: La música y el entretenimiento serán abundantes y personalizados, adaptados al estado de ánimo del usuario, aumentando la diversidad de contenido y la creatividad.

  5. Acceso a Internet principalmente por agentes: La mayoría del acceso del consumidor a Internet será realizado por agentes que actúan en nombre de los usuarios, defendiéndolos de los mercadólogos y los bots.

  6. De la práctica a la ciencia de la medicina: Se proporcionará atención de precisión para cada individuo, lo que permitirá la simulación de cada cuerpo para terapias y dosificaciones.

  7. Nuevos alimentos y fertilizantes: Se mejorará considerablemente la producción de proteínas alternativas para reemplazar las proteínas animales tradicionales.

  8. Desplazamiento de automóviles en ciudades: Se podrían reemplazar la mayoría de los automóviles en las ciudades con tránsito autónomo personal como transporte público asequible y a demanda.

  9. Volar será más rápido: Se anticipan aviones Mach 5 que podrían transportar pasajeros de Nueva York a Londres en 90 minutos usando combustible de aviación sostenible.

  10. Energía eléctrica limpia para 2050: Se podrían retrofit calderas de fusión y reemplazar calderas de carbón y gas natural, reduciendo la necesidad de construir nuevas plantas de fusión.

  11. Los recursos serán abundantes: Se descubrirán más recursos naturales de los que consumimos, desmintiendo a los defensores de la escasez de recursos como el litio, cobalto, cobre, etc.

  12. Soluciones al carbono: Los emprendedores desarrollarán y escalarán mejores tecnologías para cemento, acero, agricultura, transporte, producción de energía, etc., lo que reducirá significativamente las emisiones de carbono.