- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #89
Boletín Semanal Best-IA #89
Aprende IA, día a día
Tutoriales
Deeplearning & Hugging Face lanza un curso corto gratuito sobre agentes de código
En este curso aprenderás a:
Comprender los agentes de código versus agentes de llamadas de herramientas.
Construir agentes que usen Smolagents de Hugging Face
Implementar la ejecución de código seguro (sandboxing).
Monitorear y evaluar el rendimiento del agente.
LINK: https://www.deeplearning.ai/short-courses/building-code-agents-with-hugging-face-smolagents/
DeepWiki: obtén documentación y charla con casi cualquier repo de Github
DeepWiki es una herramienta creada por Cognition Labs que te permite tener documentación actualizada y conversacional para casi cualquier repositorio de GitHub.
Gratis para proyectos open-source. Para privados, necesitas tener una cuenta en Devin.
¿Cómo usar DeepWiki?
Tienes dos opciones:
1. Desde la web
Ve a 👉 deepwiki.com
Busca entre los más de 30,000 repos ya indexados.
También puedes activar "Deep Research" para respuestas más detalladas.
2. Desde cualquier URL de GitHub
Sólo haz esto:
Cambia "github.com" por "deepwiki.com" en la URL.
Ya tienes un wiki generado automáticamente.
Project DeepWiki
Up-to-date documentation you can talk to, for every repo in the world.
Think Deep Research for GitHub – powered by Devin.
It’s free for open-source, no sign-up!
Visit deepwiki com or just swap github → deepwiki on any repo URL:— Cognition (@cognition_labs)
5:13 PM • Apr 25, 2025
Noticias
OpenAI
OpenAI lanza gpt-image-1 en su API, el modelo detrás de la generación de imágenes de ChatGPT
OpenAI ha integrado en su API el modelo gpt-image-1, el mismo que revolucionó ChatGPT con más de 700 millones de imágenes generadas en su primera semana. Esta expansión permite que empresas y desarrolladores incorporen generación de imágenes de alta calidad en sus propias plataformas.
Puntos clave:
Capacidades avanzadas:
gpt-image-1 crea imágenes en múltiples estilos, sigue instrucciones personalizadas, entiende el mundo real y genera texto dentro de las imágenes de manera precisa.Adopción en múltiples sectores:
Empresas como Adobe, Figma, Wix y Quora ya integran esta tecnología para potenciar creatividad, diseño web, gestión de activos visuales y personalización de contenido.Seguridad y control de calidad:
El modelo incorpora medidas de seguridad, metadatos C2PA para autenticidad y opciones de moderación ajustables por los desarrolladores.Modelo de precios flexible:
Se cobra por tokens diferenciando entre entrada de texto, entrada de imágenes y salida de imágenes, con precios accesibles para distintos niveles de calidad (aproximadamente $0.02, $0.07, y $0.19 por imagen para diferentes calidades, en tamaños cuadrados).Acceso y expansión futura:
Disponible globalmente, con opciones de prueba en el Playground. OpenAI colabora con empresas como Canva, GoDaddy y HubSpot para explorar nuevas aplicaciones.
OpenAI incrementa los límites de mensaje o3, o4-Mini-High y Deep Research
Los límites de mensaje o3 y o4-Mini-High se duplican para los usuarios de ChatGPT Plus, Team o Enterprise.
100 mensajes/semana para o3
300 mensajes/día para o4-Mini
100 mensajes/día para o4-Mini-High
Deep Research también aumenta su límite de mensaje.
Ahora, 25 mensajes al mes para usuarios Plus, Team, Enterprise y EDU y 250 para usuarios Pro.
GPT-4o mejora su inteligencia y personalidad
we updated GPT-4o today! improved both intelligence and personality.
— Sam Altman (@sama)
10:56 PM • Apr 25, 2025
Genspark AI Slides: crea presentaciones completas en minutos con IA
Genspark ha lanzado AI Slides, una herramienta que automatiza todo el proceso de creación de presentaciones de forma gratuita: desde el contenido hasta el diseño, pasando por la investigación y la estructura, usando solo una indicación inicial.
Puntos clave:
Creación automática de presentaciones:
Basta con escribir un tema y Genspark genera todo el contenido, diseña el estilo y organiza las diapositivas en minutos.Ediciones con lenguaje natural:
Puedes cambiar estilos, añadir gráficos o incorporar comparaciones simplemente dando instrucciones como "Hazlo más corporativo" o "Agrega un gráfico comparativo".Transformación de documentos:
Convierte PDFs, Excel, Word o presentaciones antiguas en decks profesionales listos para usar.Multimedia integrada:
Inserta imágenes, vídeos y audios, generados por IA o extraídos de la web, con simples peticiones.Acceso libre y nuevas funciones:
AI Slides ya está disponible para todos los usuarios, incluidos los gratuitos, y ahora permite descargar presentaciones en formato PPT.
The Future of Presentations Is Here!
Introducing Genspark AI Slides, a full agentic tool that makes creating slides fast and simple.— Genspark (@genspark_ai)
12:02 PM • Apr 22, 2025
LINK: https://www.genspark.ai/
Novedades en Perplexity
Perplexity Voice Assistant (sólo en iOS)
Por primera vez, una aplicación IA puede responder preguntas y tomar acciones básicas en tu iPhone a partir de comandos de voz: reproducción de audio y video, enviar correos electrónicos, programar reuniones, hacer reservas, establecer recordatorios…
Generación de imágenes con gpt-image-1
Disponible en la web, este modelo de OpenAI permite crear imágenes contextuales, editar estilos fotográficos y diseñar apps. Pronto también llegará a dispositivos móviles.
Acceso a Grok 3 Beta y o4-mini
Los suscriptores Pro ahora pueden usar Grok 3 y o4-mini en todas las plataformas.
LINK: https://www.perplexity.ai/changelog/what-we-shipped-april-25th
Nari Labs presenta DIA: texto a voz en Web3 sobre Solana
Nari Labs ha anunciado DIA, un innovador protocolo de texto a voz (TTS) que combina blockchain de alta velocidad, clonación de voz avanzada y generación de diálogos realistas para impulsar nuevas experiencias de audio en aplicaciones descentralizadas.
Puntos clave:
Generación de voz en tiempo real:
DIA usa Solana para ofrecer TTS de alta fidelidad con clonación de voz en cero pasos y gestos no verbales como risas o toses.Accesible y eficiente:
Su modelo de 1.600 millones de parámetros puede correr en GPUs de consumo (sólo requiere 10 GB de VRAM), democratizando el acceso a audio inmersivo para DeFi, gaming y más.Modelo abierto y flexible:
Código licenciado bajo Apache 2.0, permitiendo a desarrolladores integrar voces realistas en NFT, metaversos y otras dApps.
DIA marca un paso importante hacia la descentralización del audio en la Web3, ofreciendo a los desarrolladores herramientas potentes para crear interacciones más humanas y naturales. Con su enfoque en accesibilidad, escalabilidad y realismo, promete transformar cómo las voces se integran en los ecosistemas digitales del futuro.
+3.4k stars on Github. #2 trending on Hugging Face.
All in under 24 hours.Thanks for all the support <3
Here's Dia speaking about our launch:
— Nari (@nari_labs)
2:48 PM • Apr 24, 2025
Ray-Ban Meta Glasses: La gran actualización que cambia la experiencia wearable
Meta ha anunciado una serie de importantes mejoras para sus gafas inteligentes Ray-Ban Meta. Estas novedades potencian la interacción, la conectividad y el control de funciones multimedia, llevando el concepto de gafas inteligentes a un nuevo nivel.
Puntos clave:
Interacciones más naturales:
Actualización de las voces digitales para sonar más humanas y lanzamiento de la IA multimodal de Meta en Europa y Reino Unido.Traducción en tiempo real y mensajería:
Traducción instantánea en inglés, francés, italiano y español, junto con integración directa de Instagram para mensajes, fotos y llamadas.Música y control por voz:
Acceso ampliado a Spotify, Apple Music, Amazon Music y Shazam, con nuevos controles por voz para gestionar la música sin tocar el dispositivo.Información ambiental integrada:
Las gafas ahora ofrecen datos de calidad del aire (AQI) y niveles UV para cuidar la salud del usuario en todo momento.
Esta actualización refuerza la visión de Meta de convertir las gafas inteligentes en una extensión natural de nuestra vida digital diaria. Las Ray-Ban Meta Glasses se consolidan como un dispositivo cada vez más útil, versátil y preparado para el futuro de la interacción hombre-máquina.
🚨 BIG Ray-Ban Meta Glasses Update!🚨
Now:
- Updated voices: more natural and lifelike.
- Meta AI to the EU and the UK! Including multi-modal.
- Live Translation: Bow available to all markets. You can hold seamless conversations across English, French, Italian, and Spanish
-— David Woodland (@davidsven)
7:32 PM • Apr 23, 2025
Flybody: El "insecto virtual" de DeepMind que simula el comportamiento animal
Google DeepMind y HHMI Janelia han creado Flybody, un modelo de inteligencia artificial que simula el movimiento realista de una mosca de fruta. Esta innovadora herramienta replica caminatas, vuelos y comportamientos usando visión computacional y simulaciones físicas de alta precisión.
Puntos clave:
Simulación física precisa:
Flybody utiliza MuJoCo, un simulador de física de código abierto, para recrear interacciones físicas como el vuelo y la adhesión a superficies.Entrenamiento basado en comportamiento real:
El modelo fue entrenado mediante aprendizaje automático usando videos reales de moscas, permitiéndole imitar sus movimientos de forma natural.Aplicaciones científicas:
Flybody ayuda a estudiar la conexión entre cerebro, cuerpo y entorno animal, abriendo nuevas vías para la investigación neurobiológica.Acceso abierto:
El modelo y su código están disponibles en GitHub para que toda la comunidad científica pueda usarlos y mejorarlos.Expansión a otros organismos:
DeepMind planea aplicar esta tecnología a especies como el pez cebra, un modelo clave en investigaciones genéticas y neurocientíficas.
Flybody representa un avance relevante en la investigación del comportamiento animal y la neurociencia. Al permitir simulaciones detalladas y abiertas a la comunidad, se acelera la comprensión de cómo los seres vivos interactúan con su entorno, con aplicaciones que pueden extenderse incluso al estudio del comportamiento humano.
We built an AI model to simulate how a fruit fly walks, flies and behaves – in partnership with @HHMIJanelia. 🪰
Our computerized insect replicates realistic motion, and can even use its eyes to control its actions.
Here’s how we developed it – and what it means for science. 🧵
— Google DeepMind (@GoogleDeepMind)
4:15 PM • Apr 23, 2025
Robots
π-0.5: el nuevo modelo de robótica de Physical Intelligence con capacidad de generalización
π0.5 es un modelo de base para robots que demuestra una significativa capacidad de generalización en entornos desconocidos, como hogares y oficinas.
A diferencia de otros sistemas, se enfoca en adaptarse a nuevas configuraciones con poca o ninguna experiencia previa, abordando tareas desde reorganizar objetos hasta limpiar superficies.
Aunque aún imperfecto, representa un avance hacia la inteligencia física generalizada y la integración en ambientes cotidianos complejos.
En este ejemplo, se pueden ver haciendo trabajos de limpieza de una cocina y un baño que nunca ha visto.
We got a robot to clean up homes that were never seen in its training data! Our new model, π-0.5, aims to tackle open-world generalization.
We took our robot into homes that were not in the training data and asked it to clean kitchens and bedrooms. More below⤵️
— Physical Intelligence (@physical_int)
4:56 PM • Apr 22, 2025
Reflexiones Finales
Demis Hassabis: La IA es una tecnología poderosa que plantea dos grandes riesgos
Google DeepMind CEO, Demis Hassabis:
AI is a powerful dual-purpose technology that poses two big risks:
1) How can we let good actors use AI for breakthroughs while blocking harmful use by bad actors?
2) As systems become more autonomous and self-improving, how do we maintain
— Haider. (@slow_developer)
11:03 AM • Apr 23, 2025
¿Cómo podemos permitir que los actores de bien utilicen la IA para lograr avances, mientras bloqueamos su uso dañino por parte de los actores malintencionados?
A medida que los sistemas se vuelven más autónomos y auto-mejorables, ¿cómo mantenemos el control sobre algo que es más inteligente que nosotros?