Boletín Semanal Best-IA #87

Aprende IA, día a día.

Tutoriales

Nueva Guía de Prompt Engineering de Google

Noticias

Google

🌐 Firebase Studio: desarrollo full-stack sin código

  • ¿Qué es?
    Una plataforma revolucionaria que combina herramientas como Project IDX, Genkit y el modelo Gemini, ofreciendo un entorno de desarrollo agentic en la nube.

  • Características principales:

    • 100% gratuita

    • Integración con Gemini 2.5 Flash

    • Desarrollo sin código (no-code)

    • Publicación con un clic

    • Depuración automática

    • Despliegue instantáneo con subdominios gratuitos

🎥 Veo 2 disponible a través de la API de Gemini

  • Disponible para usuarios con facturación activa (Tier 1+), ahora es posible generar vídeos de 5 a 8 segundos con tiempos de espera razonables (~40s por video).

  • Funciones destacadas:

    • 🎨 Inpainting y outpainting: elimina o expande elementos del video.

    • 🎬 Técnicas cinematográficas: control de tomas, ángulos, y ritmo.

    • 🔗 Conexión de activos: permite definir inicios y finales, y la IA genera las transiciones intermedias.

  • Aplicación: edición profesional sin conocimientos técnicos, ideal para marketing, medios, y creación de contenido automatizado.

🧠 ADK (Agent Development Kit): framework para construir agentes

  • Presentado en Google Cloud Next 2025, el ADK es un entorno open-source para construir, evaluar y desplegar agentes inteligentes y sistemas multi-agente.

  • Pilares del ADK:

    • 🧩 Multi-agente por diseño: agentes especializados que colaboran entre sí.

    • 🔄 Interacción en tiempo real: audio y video bidireccional con unas pocas líneas de código.

    • 🧪 Evaluación integrada: pruebas automáticas del rendimiento del agente.

    • 🧰 Ecosistema rico de herramientas: incluye LangChain, LlamaIndex, LangGraph, CrewAI.

    • ⚙️ Orquestación flexible: flujos de trabajo definidos o dinámicos.

    • 🧱 Desarrollo local y visual: CLI + UI para depuración paso a paso.

    • 🚢 Despliegue sencillo: container-ready, adaptable a cualquier entorno.

  • Modelos compatibles: Gemini, Vertex AI Model Garden, LiteLLM (Anthropic, Meta, Mistral AI, etc.)

🤝 Agent2Agent (A2A): protocolo para colaboración entre agentes

  • ¿Qué es?
    Un protocolo abierto que permite que agentes de distintos proveedores o frameworks colaboren de forma segura y eficiente.

  • Capacidades:

    • 🔄 Interoperabilidad universal: descubrimiento de capacidades, negociación de tareas, y colaboración.

    • 🔐 Flujos seguros de identidad/autenticación (estándares OpenAPI).

    • 🧩 Modularidad y compatibilidad multimodal (texto, video, audio).

    • 🧠 Complemento perfecto para MCP (Model Context Protocol) de Anthropic.

  • Diseñado para:

    • Tareas largas (e.g., planificación logística)

    • Coordinación entre agentes diversos

    • Aplicaciones empresariales complejas

📚 Gemini 2.5 Pro con Deep Research

  • Ahora Gemini 2.5 Pro potencia la app de investigación “Deep Research” de Google, permitiendo:

    • 📑 Transformar informes en resúmenes de audio

    • 🎯 Mejor desempeño (preferido 2:1 sobre competidores)

    • 🤹 Multimodalidad para análisis más profundos

  • Aplicación educativa y profesional: permite a estudiantes y expertos acceder a contenido complejo de forma más amigable y auditiva.

  • LINK: https://blog.google/products/gemini/deep-research-gemini-2-5-pro-experimental/

🧮 Ironwood: el nuevo TPU para la era de la inferencia

  • Ironwood es el primer TPU (Tensor Processing Unit) optimizado específicamente para inferencia de IA, y representa un gran salto tecnológico.

  • Comparativa con Trillium (TPU anterior):

    • ⚡ 2x rendimiento por watt

    • 💾 192 GB por chip (6x más)

    • 🚀 4.5x más rápida en acceso a datos

  • Importancia: responde a la creciente demanda de cómputo de IA a escala global, con especial atención a eficiencia energética y capacidad de memoria.

  • LINK: https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/

Nuevo nivel de personalización en ChatGPT: ahora recuerda TODAS tus conversaciones

  • OpenAI ha mejorado la memoria de ChatGPT: desde hoy, puede usar no solo los datos guardados previamente, sino también todas tus conversaciones pasadas para responder de forma más personalizada.

  • Puntos clave

    • Respuestas más útiles y adaptadas: ChatGPT puede hilar mejor tus gustos, proyectos y estilo para ayudarte a escribir, aprender o resolver cosas como si ya te conociera.

    • Memoria viva y automática: Cada nueva conversación ahora se construye sobre lo que ya sabe de ti, haciendo que la experiencia sea más fluida e intuitiva.

    • Tú mandas: Puedes desactivar el uso de memoria o de chats anteriores en cualquier momento desde la configuración. Y si no usas memoria, esto también estará desactivado por defecto.

    • Disponibilidad: Los usuarios de ChatGPT Plus y Pro (excepto en el Espacio Económico Europeo, Reino Unido, Suiza, Noruega, Islandia y Liechtenstein) ya pueden probarlo. Los usuarios de Team, Enterprise y Edu lo recibirán en las próximas semanas.

  • Esta mejora acelera el camino hacia asistentes realmente personalizados. Ya no hablamos solo con una IA genérica: hablamos con nuestra IA, que recuerda, aprende y nos entiende mejor cada día. Eso sí, sin renunciar al control sobre qué recuerda o no.

NVIDIA Llama Nemotron: La nueva familia de modelos abiertos con razonamiento de alto nivel para agentes empresariales

  • NVIDIA ha presentado su familia de modelos Llama Nemotron, diseñada para potenciar agentes de IA con capacidades de razonamiento avanzadas. Estos modelos abiertos, optimizados y con licencia empresarial, permiten abordar tareas complejas en sectores como logística, investigación científica y atención médica, combinando eficiencia, precisión y adaptabilidad.

  • Tres puntos clave:

    • Modelos ajustados para diferentes necesidades y hardware
      La familia Llama Nemotron incluye tres variantes: Nano (8B), Super (49B) y Ultra (253B), todas adaptadas a distintos entornos —desde dispositivos locales hasta servidores multi-GPU. Cada modelo ofrece un equilibrio entre precisión y eficiencia computacional, destacándose en benchmarks de razonamiento como GPQA Diamond, MATH-500 y AIME 2025.

    • Interruptor de razonamiento y entrenamiento sofisticado
      Una de las innovaciones más prácticas es la posibilidad de activar o desactivar el modo de razonamiento mediante un simple prompt, permitiendo que un único modelo cubra tanto tareas analíticas como funcionales. Su entrenamiento se realizó en tres fases: destilación con búsqueda arquitectónica, ajuste supervisado con datos sintéticos y aprendizaje por refuerzo, todo usando el marco NeMo de NVIDIA.

    • Colaboración multiagente para tareas abiertas
      Los modelos permiten sistemas colaborativos en tiempo de inferencia, capaces de resolver problemas sin soluciones predefinidas. Este enfoque, basado en ideación, retroalimentación, edición y selección, imita el trabajo en equipo humano y supera las limitaciones de métodos tradicionales como el "long-thinking" o "self-verification".

Kimi-VL: Un modelo ligero y abierto que planta cara a los gigantes multimodales

  • Moonshot AI ha lanzado Kimi-VL y Kimi-VL-Thinking, dos modelos de lenguaje-visión (VLM) de código abierto que destacan por su eficiencia y capacidad de razonamiento, logrando rendimientos comparables a modelos diez veces más grandes como GPT-4o.

  • Tres puntos clave:

    1. Eficiencia extrema con solo ~3B de parámetros activos
      Ambos modelos están basados en arquitecturas Mixture of Experts (MoE), activando solo unos 3.000 millones de parámetros por inferencia.

    2. Razonamiento multimodal de alto nivel
      Kimi-VL-Thinking logra un 36,8% en MathVision y un 34,5% en ScreenSpot-Pro, benchmarks exigentes que miden la capacidad de razonamiento con imágenes y habilidades tipo agente. Además, alcanza resultados competitivos en tareas OCR (867 en OCRBench) y manejo de contexto visual prolongado.

    3. Contexto largo y rendimiento top en benchmarks
      Con soporte para contextos de hasta 128K tokens, estos modelos son capaces de procesar documentos extensos y vídeos largos. En benchmarks como MMLongBench-Doc (35,1%) y LongVideoBench (64,5%) superan incluso a modelos mucho más grandes, como GPT-4o.

  • La familia Kimi-VL demuestra que no es necesario un modelo gigantesco para obtener resultados de primera línea en tareas multimodales. Es una herramienta ideal para desarrolladores y equipos que quieran construir agentes visuales inteligentes sin depender de infraestructuras costosas.

FantasyTalking: Avatares hiperrealistas que hablan desde una sola foto

  • Alibaba ha presentado FantasyTalking, un modelo de código abierto que genera retratos animados con sincronización labial, expresiones faciales realistas y movimiento corporal completo, todo a partir de una imagen estática. El sistema supera a métodos punteros como OmniHuman-1, Sonic y Hallo 3, llevando la animación facial impulsada por voz a un nuevo nivel.

Robots

Fourier N1

  • Un robot humanoide completamente de código abierto, con acceso público a todo su hardware, software de control y diseños, para acelerar la investigación y desarrollo en robótica a nivel global. 

  • Tiene un diseño compacto de 1,3 metros de altura y 38 kg de peso, y alcanza una velocidad de 3,5 m/s, respaldado por más de 1.000 horas de pruebas en exteriores.

  • → Todo el hardware del Fourier N1 es de código abierto, incluyendo listas de materiales (BOM), diseños CAD, especificaciones de actuadores y código operativo disponible en GitHub.

  • → Utiliza actuadores propietarios FSA 2.0 que le permiten una alta movilidad y estabilidad en terrenos complejos.

Reflexiones Finales

Mo Gawdat: La tiranía de IA para la que nadie está preparado

Sam Altman habla el futuro de la IA, la seguridad y el poder