- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #87
Boletín Semanal Best-IA #87
Aprende IA, día a día.
Tutoriales
Nueva Guía de Prompt Engineering de Google
Noticias
🌐 Firebase Studio: desarrollo full-stack sin código
¿Qué es?
Una plataforma revolucionaria que combina herramientas como Project IDX, Genkit y el modelo Gemini, ofreciendo un entorno de desarrollo agentic en la nube.Características principales:
100% gratuita
Integración con Gemini 2.5 Flash
Desarrollo sin código (no-code)
Publicación con un clic
Depuración automática
Despliegue instantáneo con subdominios gratuitos
Meet Firebase Studio: A cloud-based, agentic dev environment powered by Gemini ✨💻✨
Find everything you need to prototype, build, and run production-quality full-stack AI apps quickly and safely.
Learn more about building AI apps with Firebase → goo.gle/4j3MS9v
— Firebase (@Firebase)
4:05 PM • Apr 9, 2025
🎥 Veo 2 disponible a través de la API de Gemini
Disponible para usuarios con facturación activa (Tier 1+), ahora es posible generar vídeos de 5 a 8 segundos con tiempos de espera razonables (~40s por video).
Funciones destacadas:
🎨 Inpainting y outpainting: elimina o expande elementos del video.
🎬 Técnicas cinematográficas: control de tomas, ángulos, y ritmo.
🔗 Conexión de activos: permite definir inicios y finales, y la IA genera las transiciones intermedias.
Aplicación: edición profesional sin conocimientos técnicos, ideal para marketing, medios, y creación de contenido automatizado.
Veo 2 is more than just a video generation tool in @googlecloud’s #VertexAI. 🎥
Here’s a rundown of its features. 🧵
— Google DeepMind (@GoogleDeepMind)
12:25 PM • Apr 10, 2025
🧠 ADK (Agent Development Kit): framework para construir agentes
Presentado en Google Cloud Next 2025, el ADK es un entorno open-source para construir, evaluar y desplegar agentes inteligentes y sistemas multi-agente.
Pilares del ADK:
🧩 Multi-agente por diseño: agentes especializados que colaboran entre sí.
🔄 Interacción en tiempo real: audio y video bidireccional con unas pocas líneas de código.
🧪 Evaluación integrada: pruebas automáticas del rendimiento del agente.
🧰 Ecosistema rico de herramientas: incluye LangChain, LlamaIndex, LangGraph, CrewAI.
⚙️ Orquestación flexible: flujos de trabajo definidos o dinámicos.
🧱 Desarrollo local y visual: CLI + UI para depuración paso a paso.
🚢 Despliegue sencillo: container-ready, adaptable a cualquier entorno.
Modelos compatibles: Gemini, Vertex AI Model Garden, LiteLLM (Anthropic, Meta, Mistral AI, etc.)

🤝 Agent2Agent (A2A): protocolo para colaboración entre agentes
¿Qué es?
Un protocolo abierto que permite que agentes de distintos proveedores o frameworks colaboren de forma segura y eficiente.Capacidades:
🔄 Interoperabilidad universal: descubrimiento de capacidades, negociación de tareas, y colaboración.
🔐 Flujos seguros de identidad/autenticación (estándares OpenAPI).
🧩 Modularidad y compatibilidad multimodal (texto, video, audio).
🧠 Complemento perfecto para MCP (Model Context Protocol) de Anthropic.
Diseñado para:
Tareas largas (e.g., planificación logística)
Coordinación entre agentes diversos
Aplicaciones empresariales complejas
Agent2Agent Protocol vs. Model Context Protocol, clearly explained (with visual):
- Agent2Agent protocol lets AI agents connect to other Agents.
- Model context protocol lets AI Agents connect to Tools/APIs.Both are open-source and don't compete with each other!
— Avi Chawla (@_avichawla)
6:56 AM • Apr 10, 2025
📚 Gemini 2.5 Pro con Deep Research
Ahora Gemini 2.5 Pro potencia la app de investigación “Deep Research” de Google, permitiendo:
📑 Transformar informes en resúmenes de audio
🎯 Mejor desempeño (preferido 2:1 sobre competidores)
🤹 Multimodalidad para análisis más profundos
Aplicación educativa y profesional: permite a estudiantes y expertos acceder a contenido complejo de forma más amigable y auditiva.
LINK: https://blog.google/products/gemini/deep-research-gemini-2-5-pro-experimental/

🧮 Ironwood: el nuevo TPU para la era de la inferencia
Ironwood es el primer TPU (Tensor Processing Unit) optimizado específicamente para inferencia de IA, y representa un gran salto tecnológico.
Comparativa con Trillium (TPU anterior):
⚡ 2x rendimiento por watt
💾 192 GB por chip (6x más)
🚀 4.5x más rápida en acceso a datos
Importancia: responde a la creciente demanda de cómputo de IA a escala global, con especial atención a eficiencia energética y capacidad de memoria.
LINK: https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
Nuevo nivel de personalización en ChatGPT: ahora recuerda TODAS tus conversaciones
OpenAI ha mejorado la memoria de ChatGPT: desde hoy, puede usar no solo los datos guardados previamente, sino también todas tus conversaciones pasadas para responder de forma más personalizada.
Puntos clave
Respuestas más útiles y adaptadas: ChatGPT puede hilar mejor tus gustos, proyectos y estilo para ayudarte a escribir, aprender o resolver cosas como si ya te conociera.
Memoria viva y automática: Cada nueva conversación ahora se construye sobre lo que ya sabe de ti, haciendo que la experiencia sea más fluida e intuitiva.
Tú mandas: Puedes desactivar el uso de memoria o de chats anteriores en cualquier momento desde la configuración. Y si no usas memoria, esto también estará desactivado por defecto.
Disponibilidad: Los usuarios de ChatGPT Plus y Pro (excepto en el Espacio Económico Europeo, Reino Unido, Suiza, Noruega, Islandia y Liechtenstein) ya pueden probarlo. Los usuarios de Team, Enterprise y Edu lo recibirán en las próximas semanas.
Esta mejora acelera el camino hacia asistentes realmente personalizados. Ya no hablamos solo con una IA genérica: hablamos con nuestra IA, que recuerda, aprende y nos entiende mejor cada día. Eso sí, sin renunciar al control sobre qué recuerda o no.
As always, you’re in control of ChatGPT’s memory. You can opt out of referencing past chats, or memory altogether, at any time in settings.
If you’re already opted out of memory, you’ll be opted out of referencing past chats by default.
If you want to change what ChatGPT knows
— OpenAI (@OpenAI)
5:06 PM • Apr 10, 2025
NVIDIA Llama Nemotron: La nueva familia de modelos abiertos con razonamiento de alto nivel para agentes empresariales
NVIDIA ha presentado su familia de modelos Llama Nemotron, diseñada para potenciar agentes de IA con capacidades de razonamiento avanzadas. Estos modelos abiertos, optimizados y con licencia empresarial, permiten abordar tareas complejas en sectores como logística, investigación científica y atención médica, combinando eficiencia, precisión y adaptabilidad.
Tres puntos clave:
Modelos ajustados para diferentes necesidades y hardware
La familia Llama Nemotron incluye tres variantes: Nano (8B), Super (49B) y Ultra (253B), todas adaptadas a distintos entornos —desde dispositivos locales hasta servidores multi-GPU. Cada modelo ofrece un equilibrio entre precisión y eficiencia computacional, destacándose en benchmarks de razonamiento como GPQA Diamond, MATH-500 y AIME 2025.Interruptor de razonamiento y entrenamiento sofisticado
Una de las innovaciones más prácticas es la posibilidad de activar o desactivar el modo de razonamiento mediante un simple prompt, permitiendo que un único modelo cubra tanto tareas analíticas como funcionales. Su entrenamiento se realizó en tres fases: destilación con búsqueda arquitectónica, ajuste supervisado con datos sintéticos y aprendizaje por refuerzo, todo usando el marco NeMo de NVIDIA.Colaboración multiagente para tareas abiertas
Los modelos permiten sistemas colaborativos en tiempo de inferencia, capaces de resolver problemas sin soluciones predefinidas. Este enfoque, basado en ideación, retroalimentación, edición y selección, imita el trabajo en equipo humano y supera las limitaciones de métodos tradicionales como el "long-thinking" o "self-verification".

Kimi-VL: Un modelo ligero y abierto que planta cara a los gigantes multimodales
Moonshot AI ha lanzado Kimi-VL y Kimi-VL-Thinking, dos modelos de lenguaje-visión (VLM) de código abierto que destacan por su eficiencia y capacidad de razonamiento, logrando rendimientos comparables a modelos diez veces más grandes como GPT-4o.
Tres puntos clave:
Eficiencia extrema con solo ~3B de parámetros activos
Ambos modelos están basados en arquitecturas Mixture of Experts (MoE), activando solo unos 3.000 millones de parámetros por inferencia.Razonamiento multimodal de alto nivel
Kimi-VL-Thinking logra un 36,8% en MathVision y un 34,5% en ScreenSpot-Pro, benchmarks exigentes que miden la capacidad de razonamiento con imágenes y habilidades tipo agente. Además, alcanza resultados competitivos en tareas OCR (867 en OCRBench) y manejo de contexto visual prolongado.Contexto largo y rendimiento top en benchmarks
Con soporte para contextos de hasta 128K tokens, estos modelos son capaces de procesar documentos extensos y vídeos largos. En benchmarks como MMLongBench-Doc (35,1%) y LongVideoBench (64,5%) superan incluso a modelos mucho más grandes, como GPT-4o.
La familia Kimi-VL demuestra que no es necesario un modelo gigantesco para obtener resultados de primera línea en tareas multimodales. Es una herramienta ideal para desarrolladores y equipos que quieran construir agentes visuales inteligentes sin depender de infraestructuras costosas.
🚀 Meet Kimi-VL and Kimi-VL-Thinking! 🌟 Our latest open source lightweight yet powerful Vision-Language Model with reasoning capability.
✨ Key Highlights:
💡 An MoE VLM and an MoE Reasoning VLM with only ~3B activated parameters
🧠 Strong multimodal reasoning (36.8% on— Kimi.ai (@Kimi_Moonshot)
6:21 PM • Apr 9, 2025
Pruébalo en Huggingface: https://huggingface.co/collections/moonshotai/kimi-vl-a3b-67f67b6ac91d3b03d382dd85
FantasyTalking: Avatares hiperrealistas que hablan desde una sola foto
Alibaba ha presentado FantasyTalking, un modelo de código abierto que genera retratos animados con sincronización labial, expresiones faciales realistas y movimiento corporal completo, todo a partir de una imagen estática. El sistema supera a métodos punteros como OmniHuman-1, Sonic y Hallo 3, llevando la animación facial impulsada por voz a un nuevo nivel.
Alibaba just announced FantasyTalking on Hugging Face
Realistic Talking Portrait Generation via Coherent Motion Synthesis
— AK (@_akhaliq)
8:24 AM • Apr 10, 2025
Robots
Fourier N1
Un robot humanoide completamente de código abierto, con acceso público a todo su hardware, software de control y diseños, para acelerar la investigación y desarrollo en robótica a nivel global.
Tiene un diseño compacto de 1,3 metros de altura y 38 kg de peso, y alcanza una velocidad de 3,5 m/s, respaldado por más de 1.000 horas de pruebas en exteriores.
→ Todo el hardware del Fourier N1 es de código abierto, incluyendo listas de materiales (BOM), diseños CAD, especificaciones de actuadores y código operativo disponible en GitHub.
→ Utiliza actuadores propietarios FSA 2.0 que le permiten una alta movilidad y estabilidad en terrenos complejos.
Fourier Intelligence has released the Fourier N1.
A fully open-source humanoid robot with public access to all hardware, control software, and design assets to accelerate global robotics R&D. It features a compact 1.3m/38kg build and achieves 3.5 m/s speed, backed by 1,000+
— Rohan Paul (@rohanpaul_ai)
10:55 PM • Apr 12, 2025