- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #91
Boletín Semanal Best-IA #91
Aprende IA, día a día
Tutoriales
Crea APPS a partir de VIDEOS con Gemini 2.5 Pro (I/O Edition)
Automatiza flujos de trabajo complejos con OpenAI o3
Noticias
Google lanza Gemini 2.5 Pro I/O Edition, “el nuevo rey de la programación con IA”
Google ha presentado Gemini 2.5 Pro I/O Edition, una actualización que lleva la programación asistida por IA a otro nivel, superando a todos los modelos anteriores en los rankings más exigentes.
Puntos clave:
Líder absoluto en programación web
La nueva versión ha alcanzado el primer puesto en el ranking de WebDev Arena, desbancando con claridad a Claude 3.7 Sonnet, gracias a mejoras notables en desarrollo frontend, transformación y edición de código, y flujos de trabajo agentivos.Nº 1 en todos los benchmarks de lenguaje
Gemini 2.5 Pro I/O Edition también domina el LM Arena leaderboard, donde supera a modelos como OpenAI o3, consolidándose como la IA más potente del momento para tareas de lenguaje y programación.Entiende vídeo y lo transforma en apps
A sus mejoras en desarrollo se suman potentes capacidades de comprensión de vídeo, que permiten generar aplicaciones educativas interactivas a partir de contenido audiovisual.Rendimiento superior en benchmarks de vídeo
Gemini 2.5 Pro supera a modelos como GPT-4.1 en tareas complejas de comprensión de vídeo, como VideoQA, YouCook2 y QVHighlights, incluso frente a modelos especializados y ajustados a mano.Multimodalidad real: vídeo, audio y código
Es el primer modelo de Google que combina vídeo, audio, texto y código de forma nativa, permitiendo transformaciones como “vídeo a app educativa” o la generación automática de animaciones en p5.js a partir de vídeos.Interacción temporal avanzada
Gemini 2.5 Pro destaca en el reconocimiento y descripción de momentos clave, e incluso en razonamiento temporal como el conteo preciso de eventos dentro de un vídeo, demostrando comprensión contextual en secuencias largas.Optimización para costes y escalabilidad
La versión Gemini 2.5 Flash ofrece una alternativa más ligera para tareas similares, mientras que la opción de resolución baja permite procesar hasta 6 horas de vídeo con una sola llamada a la API, manteniendo una alta precisión.Integración en el ecosistema Google
Los modelos están disponibles en Google AI Studio, Vertex AI y el Gemini API, con soporte directo para vídeos de YouTube, facilitando la creación de nuevas herramientas interactivas y educativas basadas en vídeo.
Con este lanzamiento, Google se posiciona al frente de la carrera por el mejor modelo de IA generalista. Su capacidad para escribir código, entender vídeo y crear experiencias interactivas lo convierte en una herramienta clave para desarrolladores, educadores y creadores de productos digitales.
We’re releasing an updated Gemini 2.5 Pro (I/O edition) to make it even better at coding. 🚀
You can build richer web apps, games, simulations and more - all with one prompt.
In @GeminiApp, here's how it transformed images of nature into code to represent unique patterns 🌱
— Google DeepMind (@GoogleDeepMind)
3:04 PM • May 6, 2025
OpenAI
Ahora puedes conectar los repositorios de GitHub a la investigación profunda en ChatGPT
Haz una pregunta y el agente de investigación profunda leerá y buscará el código fuente del repositorio y los PRS, devolviendo un informe detallado con citas.
Presiona “investigación profunda” → Github para comenzar.
You can now connect GitHub repos to deep research in ChatGPT. 🐙
Ask a question and the deep research agent will read and search the repo’s source code and PRs, returning a detailed report with citations. Hit deep research → GitHub to get started.
— OpenAI Developers (@OpenAIDevs)
7:08 PM • May 8, 2025
Las nuevas mejoras de memoria ahora se implementan por completo a usuarios de PLUS y Pro en el Espacio Económico Europeo, Reino Unido, Suiza, Noruega, Islandia y Liechtenstein
The new memory improvements are now fully rolled out to Plus and Pro users in the EEA, UK, Switzerland, Norway, Iceland, and Liechtenstein.
— OpenAI (@OpenAI)
5:04 AM • May 9, 2025
La directora ejecutiva de Instacart, Fidji Simo, será la CEO de Aplicaciones de OpenAI
OpenAI ha anunciado la incorporación de Fidji Simo como CEO de Aplicaciones para fortalecer su crecimiento y expansión.
Sam Altman, CEO de la empresa, continuará liderando las áreas de Investigación, Computación y Sistemas de Seguridad, mientras Fidji se enfocará en escalar las funciones comerciales y operativas.
Fidji, que ha sido miembro del consejo de OpenAI y actualmente trabaja en Instacart, aporta experiencia en liderazgo, producto y operaciones.
Esta incorporación refuerza la visión de OpenAI de seguir avanzando en la creación de una inteligencia artificial superinteligente que beneficie a toda la humanidad.
LINK: https://openai.com/index/leadership-expansion-with-fidji-simo/
La fundación sin ánimo de lucro seguirá al mando de OpenAI
OpenAI ha anunciado que su estructura organizativa se mantendrá bajo el control de su fundación sin ánimo de lucro. Aunque su filial con fines de lucro se convertirá en una Corporación de Beneficio Público (PBC), la misión de desarrollar inteligencia artificial en beneficio de la humanidad permanece inalterada. La fundación seguirá siendo propietaria mayoritaria y supervisará la nueva PBC, asegurando que los intereses comerciales no desvíen el propósito original de la organización.
OpenAI acordó comprar Windsurf por aproximadamente 3 mil millones de dólares, según informa Bloomberg News
Mistral lanza Mistral Medium 3 y Le Chat Enterprise: nueva IA más potente, más barata y 100 % adaptable para empresas
Mistral AI ha presentado dos grandes novedades: Mistral Medium 3, un modelo que combina rendimiento de vanguardia con despliegue eficiente, y Le Chat Enterprise, una plataforma empresarial completa basada en ese modelo. Ambos productos están diseñados para integrar IA avanzada en organizaciones sin complicaciones ni sobrecostes.
Mistral Medium 3: IA de alto nivel a una fracción del coste
Rendimiento top, precio mínimo
Rinde igual o mejor que Claude 3.7 Sonnet en más del 90 % de los benchmarks, a un coste 8 veces menor ($0.4 input / $2 output por millón de tokens).Despliegue fácil y flexible
Compatible con cualquier nube o entorno on-premise desde solo 4 GPUs, ideal para empresas que buscan control y escalabilidad.Dominio en programación y tareas técnicas
Especialmente fuerte en coding y STEM, superando incluso a modelos más grandes como Llama 4 Maverick y Cohere Command R+.Pensado para integrarse en sistemas empresariales
Admite entrenamiento continuo, afinado personalizado y conexión con bases de conocimiento para automatizar procesos y análisis complejos.
Introducing Mistral Medium 3: our new multimodal model offering SOTA performance at 8X lower cost.
- A new class of models that balances performance, cost, and deployability.
- High performance in coding and function-calling.
- Full enterprise capabilities, including hybrid or— Mistral AI (@MistralAI)
2:12 PM • May 7, 2025
Le Chat Enterprise: una plataforma AI todo-en-uno para empresas
Plataforma unificada para el trabajo organizacional
Permite crear agentes personalizados, conectar herramientas como Google Drive o SharePoint y organizar documentos para respuestas contextuales.Seguridad y privacidad como prioridad
Despliegue en nubes públicas, privadas o self-hosted con controles de acceso, logs de auditoría y sin dependencia de proveedores.Interfaz adaptable sin código
Equipos técnicos y no técnicos pueden crear asistentes específicos para tareas repetitivas o complejas, todo sin escribir una línea de código.Personalización profunda y mejora continua
Desde memoria personalizada hasta feedback loops para adaptar el comportamiento de los modelos según las necesidades de la empresa.Mistral redefine la IA empresarial: modelos potentes, económicos y personalizables que hacen viable la adopción masiva sin sacrificar privacidad ni rendimiento.
Introducing Le Chat Enterprise, the most customizable and secure agent-powered AI assistant for businesses, making AI a real leverage for competitiveness.
- Integration with your company knowledge (starting with Gmail, Google Drive, Sharepoint…)
- Ability to add frequently used— Mistral AI (@MistralAI)
2:14 PM • May 7, 2025
Claude se conecta a internet: Anthropic lanza búsqueda web en su API
Anthropic ha anunciado la integración de búsqueda web en su API, permitiendo que los modelos Claude accedan a información en tiempo real directamente desde internet. Esta mejora expande drásticamente su utilidad para aplicaciones que requieren datos actuales y precisos.
Puntos clave:
Acceso a datos actualizados desde la API
Claude puede ahora realizar búsquedas en la web para complementar su conocimiento entrenado con información reciente y especializada. Esta capacidad está disponible en los modelos Claude 3.7 Sonnet, Claude 3.5 Sonnet mejorado y Claude 3.5 Haiku.Funcionamiento autónomo como agente de búsqueda
El sistema puede encadenar múltiples búsquedas de forma progresiva, afinando consultas y refinando resultados para realizar investigaciones ligeras. Todo esto controlable mediante el parámetromax_uses
.Casos de uso en sectores clave
Claude con búsqueda web se puede aplicar a servicios financieros (análisis de mercados en tiempo real), legales (consultas sobre jurisprudencia reciente), desarrollo (documentación técnica), o productividad (informes y competencia).Transparencia y control organizativo
Cada respuesta basada en la web incluye citas. Además, se pueden definir listas de dominios permitidos o bloqueados, y gestionar el acceso desde niveles administrativos.Integración con Claude Code y plataformas como Poe
La búsqueda web mejora también las capacidades de programación en Claude Code y ya se está utilizando en plataformas como Poe y Adaptive.ai.
Meta lanza Locate 3D y PLM: dos nuevos modelos para visión artificial avanzada y entornos 3D
Meta refuerza su apuesta por la inteligencia artificial con el lanzamiento de dos modelos de código abierto centrados en la visión computacional: Meta Locate 3D, para localización precisa en entornos tridimensionales, y Perception Language Model (PLM), un modelo vision-language que aborda tareas visuales complejas con reproducibilidad total.
Meta Locate 3D: comprensión espacial para robots más inteligentes
Localización precisa en 3D
El modelo permite identificar y ubicar objetos con gran exactitud en entornos tridimensionales, mejorando la percepción espacial de agentes autónomos.Interacción más natural con humanos
Está pensado para facilitar la interacción entre robots y personas en entornos reales, al comprender mejor el contexto físico.Recursos disponibles
Meta ha liberado el modelo, el dataset, un paper explicativo y una demo interactiva para desarrolladores e investigadores.
Introducing Meta Locate 3D: a model for accurate object localization in 3D environments.
Learn how Meta Locate 3D can help robots accurately understand their surroundings and interact more naturally with humans.
You can download the model and dataset, read our research paper,
— AI at Meta (@AIatMeta)
4:29 PM • May 8, 2025
Meta PLM: visión y lenguaje combinados para tareas visuales desafiantes
Modelo vision-language abierto y reproducible
PLM aborda tareas visuales complejas combinando texto e imagen, y destaca por su enfoque accesible para la comunidad investigadora.Impulso al ecosistema open source
Meta proporciona el código, el dataset y el paper, promoviendo una IA más colaborativa y transparente.Aplicaciones en visión por computador
PLM puede utilizarse como base para construir sistemas más sofisticados en áreas como análisis de imágenes, navegación o robótica.
Introducing Meta Perception Language Model (PLM): an open & reproducible vision-language model tackling challenging visual tasks.
Learn more about how PLM can help the open source community build more capable computer vision systems.
Read the research paper, and download the
— AI at Meta (@AIatMeta)
4:29 PM • May 7, 2025
Microsoft apuesta por la colaboración entre agentes con el protocolo A2A y mejora Copilot con nuevas funciones interactivas
Microsoft refuerza su visión de una IA abierta y colaborativa con dos anuncios clave: la introducción del protocolo Agent2Agent (A2A) para agentes interconectados en Azure y Copilot Studio, y la nueva función Pages en Microsoft Copilot, que permite interactuar con IA de forma más fluida, al estilo ChatGPT Canvas.
Agent2Agent (A2A): el lenguaje común para agentes inteligentes
Interoperabilidad real entre agentes y plataformas
A2A permite que agentes de diferentes nubes, proveedores o entornos colaboren, compartan objetivos y ejecuten acciones de forma segura y auditable.Despliegue empresarial inmediato
Azure AI Foundry y Copilot Studio integrarán A2A, facilitando flujos de trabajo multi-agente sin renunciar a la gobernanza ni a la observabilidad.Basado en estándares abiertos
Microsoft contribuye activamente al desarrollo de A2A en GitHub y lo integra con herramientas populares como Semantic Kernel y LangChain.Seguridad y control total
El protocolo utiliza Microsoft Entra, mTLS, filtros de contenido y trazabilidad completa, promoviendo ecosistemas de agentes confiables y auditables.
Copilot Pages: colabora con la IA como si fuera un editor inteligente
Interacción más natural y editable
La nueva función “Pages” permite que el usuario revise, expanda o ajuste las respuestas de Copilot en un entorno de edición visual, similar a ChatGPT Canvas.Enfoque en productividad, no en programación
Aunque carece de funciones de codificación avanzadas, Pages está orientado a mejorar la redacción, el análisis de ideas y la colaboración en texto dentro del flujo de trabajo.IA como interfaz de trabajo
Microsoft refuerza la idea de Copilot como el nuevo “UI para la IA”, integrándose de forma fluida en tareas profesionales y trabajo diario.
📣 New feature alert! 📣
Meet Pages, your new editing BFF! No need to start from scratch - just hit "Edit this Response," highlight text, and tap "Ask" to tweak, expand, or polish your writing.
Use it now at msft.it/6010SnPwu
— Microsoft Copilot (@Copilot)
4:30 PM • May 8, 2025
Robots
VideoMimic
Los investigadores de UC Berkeley presentan VideoMimic, un método que conecta datos del mundo real con simulaciones y de regreso a aplicaciones en el mundo físico.
El sistema usa videos grabados con dispositivos móviles para aprender.
Desde estos videos, extrae información relevante y crea modelos digitales 3D tanto de las personas que aparecen como del entorno donde están.
Con estos modelos, genera políticas de control para robots humanoides, ayudándolos a aprender a realizar tareas específicas.
Esto permite que los robots adquieran habilidades complejas, como subir escaleras, imitando movimientos observados en videos del mundo real.
our new system trains humanoid robots using data from cell phone videos, enabling skills such as climbing stairs and sitting on chairs in a single policy
(w/ @redstone_hong@junyi42@davidrmcall)
— Arthur Allshire (@arthurallshire)
6:40 PM • May 7, 2025