Boletín Semanal Best-IA #89

Aprende IA, día a día

Tutoriales

Deeplearning & Hugging Face lanza un curso corto gratuito sobre agentes de código

DeepWiki: obtén documentación y charla con casi cualquier repo de Github

  • DeepWiki es una herramienta creada por Cognition Labs que te permite tener documentación actualizada y conversacional para casi cualquier repositorio de GitHub.

  • Gratis para proyectos open-source. Para privados, necesitas tener una cuenta en Devin.

  • ¿Cómo usar DeepWiki?

    Tienes dos opciones:

    • 1. Desde la web

      • Ve a 👉 deepwiki.com

      • Busca entre los más de 30,000 repos ya indexados.

      • También puedes activar "Deep Research" para respuestas más detalladas.

    • 2. Desde cualquier URL de GitHub

  • Ya tienes un wiki generado automáticamente.

Noticias

OpenAI

OpenAI lanza gpt-image-1 en su API, el modelo detrás de la generación de imágenes de ChatGPT

  • OpenAI ha integrado en su API el modelo gpt-image-1, el mismo que revolucionó ChatGPT con más de 700 millones de imágenes generadas en su primera semana. Esta expansión permite que empresas y desarrolladores incorporen generación de imágenes de alta calidad en sus propias plataformas.

  • Puntos clave:

    • Capacidades avanzadas:
      gpt-image-1 crea imágenes en múltiples estilos, sigue instrucciones personalizadas, entiende el mundo real y genera texto dentro de las imágenes de manera precisa.

    • Adopción en múltiples sectores:
      Empresas como Adobe, Figma, Wix y Quora ya integran esta tecnología para potenciar creatividad, diseño web, gestión de activos visuales y personalización de contenido.

    • Seguridad y control de calidad:
      El modelo incorpora medidas de seguridad, metadatos C2PA para autenticidad y opciones de moderación ajustables por los desarrolladores.

    • Modelo de precios flexible:
      Se cobra por tokens diferenciando entre entrada de texto, entrada de imágenes y salida de imágenes, con precios accesibles para distintos niveles de calidad (aproximadamente $0.02, $0.07, y $0.19 por imagen para diferentes calidades, en tamaños cuadrados).

    • Acceso y expansión futura:
      Disponible globalmente, con opciones de prueba en el Playground. OpenAI colabora con empresas como Canva, GoDaddy y HubSpot para explorar nuevas aplicaciones.

  • LINK: https://openai.com/index/image-generation-api/

OpenAI incrementa los límites de mensaje o3, o4-Mini-High y Deep Research

GPT-4o mejora su inteligencia y personalidad

Genspark AI Slides: crea presentaciones completas en minutos con IA

  • Genspark ha lanzado AI Slides, una herramienta que automatiza todo el proceso de creación de presentaciones de forma gratuita: desde el contenido hasta el diseño, pasando por la investigación y la estructura, usando solo una indicación inicial.

  • Puntos clave:

    • Creación automática de presentaciones:
      Basta con escribir un tema y Genspark genera todo el contenido, diseña el estilo y organiza las diapositivas en minutos.

    • Ediciones con lenguaje natural:
      Puedes cambiar estilos, añadir gráficos o incorporar comparaciones simplemente dando instrucciones como "Hazlo más corporativo" o "Agrega un gráfico comparativo".

    • Transformación de documentos:
      Convierte PDFs, Excel, Word o presentaciones antiguas en decks profesionales listos para usar.

    • Multimedia integrada:
      Inserta imágenes, vídeos y audios, generados por IA o extraídos de la web, con simples peticiones.

    • Acceso libre y nuevas funciones:
      AI Slides ya está disponible para todos los usuarios, incluidos los gratuitos, y ahora permite descargar presentaciones en formato PPT.

Novedades en Perplexity

Perplexity Voice Assistant (sólo en iOS)

  • Por primera vez, una aplicación IA puede responder preguntas y tomar acciones básicas en tu iPhone a partir de comandos de voz: reproducción de audio y video, enviar correos electrónicos, programar reuniones, hacer reservas, establecer recordatorios…

Generación de imágenes con gpt-image-1

  • Disponible en la web, este modelo de OpenAI permite crear imágenes contextuales, editar estilos fotográficos y diseñar apps. Pronto también llegará a dispositivos móviles.

Acceso a Grok 3 Beta y o4-mini

Nari Labs presenta DIA: texto a voz en Web3 sobre Solana

  • Nari Labs ha anunciado DIA, un innovador protocolo de texto a voz (TTS) que combina blockchain de alta velocidad, clonación de voz avanzada y generación de diálogos realistas para impulsar nuevas experiencias de audio en aplicaciones descentralizadas.

  • Puntos clave:

    • Generación de voz en tiempo real:
      DIA usa Solana para ofrecer TTS de alta fidelidad con clonación de voz en cero pasos y gestos no verbales como risas o toses.

    • Accesible y eficiente:
      Su modelo de 1.600 millones de parámetros puede correr en GPUs de consumo (sólo requiere 10 GB de VRAM), democratizando el acceso a audio inmersivo para DeFi, gaming y más.

    • Modelo abierto y flexible:
      Código licenciado bajo Apache 2.0, permitiendo a desarrolladores integrar voces realistas en NFT, metaversos y otras dApps.

  • DIA marca un paso importante hacia la descentralización del audio en la Web3, ofreciendo a los desarrolladores herramientas potentes para crear interacciones más humanas y naturales. Con su enfoque en accesibilidad, escalabilidad y realismo, promete transformar cómo las voces se integran en los ecosistemas digitales del futuro.

Ray-Ban Meta Glasses: La gran actualización que cambia la experiencia wearable

  • Meta ha anunciado una serie de importantes mejoras para sus gafas inteligentes Ray-Ban Meta. Estas novedades potencian la interacción, la conectividad y el control de funciones multimedia, llevando el concepto de gafas inteligentes a un nuevo nivel.

  • Puntos clave:

    • Interacciones más naturales:
      Actualización de las voces digitales para sonar más humanas y lanzamiento de la IA multimodal de Meta en Europa y Reino Unido.

    • Traducción en tiempo real y mensajería:
      Traducción instantánea en inglés, francés, italiano y español, junto con integración directa de Instagram para mensajes, fotos y llamadas.

    • Música y control por voz:
      Acceso ampliado a Spotify, Apple Music, Amazon Music y Shazam, con nuevos controles por voz para gestionar la música sin tocar el dispositivo.

    • Información ambiental integrada:
      Las gafas ahora ofrecen datos de calidad del aire (AQI) y niveles UV para cuidar la salud del usuario en todo momento.

  • Esta actualización refuerza la visión de Meta de convertir las gafas inteligentes en una extensión natural de nuestra vida digital diaria. Las Ray-Ban Meta Glasses se consolidan como un dispositivo cada vez más útil, versátil y preparado para el futuro de la interacción hombre-máquina.

Flybody: El "insecto virtual" de DeepMind que simula el comportamiento animal

  • Google DeepMind y HHMI Janelia han creado Flybody, un modelo de inteligencia artificial que simula el movimiento realista de una mosca de fruta. Esta innovadora herramienta replica caminatas, vuelos y comportamientos usando visión computacional y simulaciones físicas de alta precisión.

  • Puntos clave:

    • Simulación física precisa:
      Flybody utiliza MuJoCo, un simulador de física de código abierto, para recrear interacciones físicas como el vuelo y la adhesión a superficies.

    • Entrenamiento basado en comportamiento real:
      El modelo fue entrenado mediante aprendizaje automático usando videos reales de moscas, permitiéndole imitar sus movimientos de forma natural.

    • Aplicaciones científicas:
      Flybody ayuda a estudiar la conexión entre cerebro, cuerpo y entorno animal, abriendo nuevas vías para la investigación neurobiológica.

    • Acceso abierto:
      El modelo y su código están disponibles en GitHub para que toda la comunidad científica pueda usarlos y mejorarlos.

    • Expansión a otros organismos:
      DeepMind planea aplicar esta tecnología a especies como el pez cebra, un modelo clave en investigaciones genéticas y neurocientíficas.

  • Flybody representa un avance relevante en la investigación del comportamiento animal y la neurociencia. Al permitir simulaciones detalladas y abiertas a la comunidad, se acelera la comprensión de cómo los seres vivos interactúan con su entorno, con aplicaciones que pueden extenderse incluso al estudio del comportamiento humano.

Robots

π-0.5: el nuevo modelo de robótica de Physical Intelligence con capacidad de generalización 

  • π0.5 es un modelo de base para robots que demuestra una significativa capacidad de generalización en entornos desconocidos, como hogares y oficinas.

  • A diferencia de otros sistemas, se enfoca en adaptarse a nuevas configuraciones con poca o ninguna experiencia previa, abordando tareas desde reorganizar objetos hasta limpiar superficies.

  • Aunque aún imperfecto, representa un avance hacia la inteligencia física generalizada y la integración en ambientes cotidianos complejos.

  • En este ejemplo, se pueden ver haciendo trabajos de limpieza de una cocina y un baño que nunca ha visto.

Reflexiones Finales

Demis Hassabis: La IA es una tecnología poderosa que plantea dos grandes riesgos

  • ¿Cómo podemos permitir que los actores de bien utilicen la IA para lograr avances, mientras bloqueamos su uso dañino por parte de los actores malintencionados?

  • A medida que los sistemas se vuelven más autónomos y auto-mejorables, ¿cómo mantenemos el control sobre algo que es más inteligente que nosotros?