Best-IA Newsletter
Posts
Boletín Semanal Best-IA #67

Boletín Semanal Best-IA #67

Aprende IA, día a día.

Best-IA
18 de noviembre de 2024

Best-IA. ¡Aprende IA, día a día!

Noticias

Google Presenta Gemini-Exp-1114: El Modelo Experimental que Lidera el Chatbot Arena Benchmark

Google ha lanzado su último modelo de lenguaje grande experimental, Gemini-Exp-1114, que está destacando en la comunidad de inteligencia artificial por su impresionante rendimiento en tareas textuales y visuales.
Puntos clave:
1. Rendimiento superior: Gemini-Exp-1114 ocupa el puesto #1 en el Chatbot Arena Benchmark, superando a modelos líderes como Claude 3.5 Sonnet y OpenAI's o1-Preview. Sus habilidades sobresalen en escritura creativa, razonamiento matemático, seguimiento de instrucciones complejas y programación. Su ventana de contexto de 32K tokens permite manejar consultas detalladas con precisión.
2. Capacidades visuales excepcionales: El modelo no solo domina tareas textuales, sino que también lidera el ranking en tareas visuales. Puede analizar imágenes de manera integral, evaluando aspectos como iluminación, expresión, ángulo, foco y profundidad de campo, ofreciendo respuestas precisas y bien elaboradas a consultas basadas en imágenes.
3. Acceso y limitaciones: Gemini-Exp-1114 está disponible para pruebas a través de Google AI Studio y el API de Gemini. Sin embargo, como modelo experimental, puede presentar errores ocasionales en ciertos tipos de consultas, destacando su estado en evolución.

LINK: https://ai.google.dev/gemini-api/docs/models/experimental-models?hl=es-419

xAI: Grok será Gratuito y $6 Mil Millones para Infraestructura de IA

La compañía de inteligencia artificial de Elon Musk, xAI, ha realizado dos importantes anuncios que refuerzan su posición en el competitivo mercado de la IA: la próxima disponibilidad gratuita de su chatbot Grok y una millonaria inversión en infraestructura tecnológica.
1. Grok será gratuito y abierto al público
- Hasta ahora, Grok solo estaba disponible para usuarios de pago de la red social X (anteriormente Twitter). Sin embargo, xAI ha anunciado que el chatbot estará accesible de forma gratuita, comenzando con un lanzamiento inicial en Nueva Zelanda.
- Restricciones de uso gratuito:
  - 10 consultas cada 2 horas en el modelo grande.
  - 20 consultas cada 2 horas en el modelo "mini".
  - Generación de hasta 3 imágenes diarias.
2. Recaudación de $6 mil millones para infraestructura de IA
- xAI está en proceso de recaudar hasta $6 mil millones con el objetivo de adquirir 100,000 chips Nvidia y construir un superordenador en Memphis.
- El superordenador permitirá potenciar la capacidad de las plataformas de xAI, incluyendo Grok, y será clave para tecnologías avanzadas como el sistema de conducción autónoma de Tesla (Full Self Driving).
LINK: https://www.cnbc.com/2024/11/15/elon-musks-xai-raising-up-to-6-billion-to-purchase-100000-nvidia-chips-for-memphis-data-center.html

ChatGPT para macOS: Ahora compatible con Xcode y herramientas de desarrollo

OpenAI ha lanzado una versión beta de ChatGPT para macOS, permitiendo a los usuarios integrar el modelo directamente con herramientas de desarrollo como Xcode, VS Code, Terminal e iTerm2. Esta nueva funcionalidad está disponible inicialmente para suscriptores de los planes Plus y Team, mientras que las versiones para Enterprise y Educación llegarán en las próximas semanas.
Esta actualización fortalece el papel de ChatGPT como una herramienta esencial para desarrolladores, llevando la asistencia de IA más cerca de los flujos de trabajo reales.

ChatGPT 🤝 VS Code, Xcode, Terminal, iTerm2
ChatGPT for macOS can now work with apps on your desktop. In this early beta for Plus and Team users, you can let ChatGPT look at coding apps to provide better answers.
— OpenAI Developers (@OpenAIDevs)
6:33 PM • Nov 14, 2024

Google Lanza la App de Gemini para iOS

Google ham presentado oficialmente su asistente de inteligencia artificial Gemini como una app independiente para iOS, brindando a los usuarios de iPhone una experiencia optimizada y funcional. Esta estrategia busca competir con asistentes como Siri y ChatGPT, ampliando el alcance de Gemini en el ecosistema Apple.
Puntos clave:
1. Características destacadas: La app incluye Gemini Live para conversaciones en tiempo real por voz en 10 idiomas (incluido español), generación de imágenes con Imagen 3 a partir de texto, y conexión con otras apps de Google como Gmail, Maps y Drive. Además, ofrece integración con Dynamic Island y la pantalla de bloqueo en iOS.
2. Experiencia mejorada para usuarios de iPhone: A diferencia de las versiones previas disponibles solo en la app de Google o navegadores, esta aplicación independiente ofrece una experiencia más completa, diseñada específicamente para dispositivos con iOS 16 o superior.
3. Planes de suscripción premium: Aunque la app es gratuita, Google ofrece Gemini Advanced por 18,99 euros al mes, con acceso a modelos de IA más avanzados y funciones exclusivas como parte del plan Google One AI.
LINK: https://blog.google/products/gemini/gemini-iphone-app/

AlphaFold3: DeepMind “Abre” el Código de su Herramienta de Predicción de Proteínas

DeepMind ha anunciado la disponibilidad del código de AlphaFold3, su modelo de predicción de estructuras de proteínas galardonado con el Premio Nobel de Química 2024. Esta decisión busca equilibrar el acceso para investigación académica y la protección de intereses comerciales, tras críticas previas por la falta de apertura inicial.
Puntos clave:
1. Mayor accesibilidad, pero con límites: El código de AlphaFold3 está disponible para aplicaciones no comerciales, y los investigadores académicos pueden solicitar acceso a los pesos del modelo. Sin embargo, su licencia prohíbe su uso en descubrimiento de fármacos y otros fines comerciales.
2. Nuevas capacidades científicas: A diferencia de sus predecesores, AlphaFold3 puede modelar proteínas en interacción con otras moléculas, lo que representa un avance significativo para la investigación biomédica. Este potencial ya ha inspirado a competidores como Baidu, ByteDance y startups como Chai Discovery a lanzar modelos similares.
3. Impacto en la comunidad científica: La apertura parcial de AlphaFold3 fomenta la innovación en biología computacional, permitiendo a los científicos explorar nuevas aplicaciones. Equipos como OpenFold3 están trabajando en versiones completamente abiertas que podrían ser utilizadas por empresas farmacéuticas para mejorar modelos con datos propios.
AlphaFold3 refuerza el papel de la IA en la investigación científica, especialmente en áreas como el diseño de fármacos y la biología molecular. Sin embargo, el debate sobre la verdadera apertura en modelos "open source" sigue vigente, destacando la necesidad de estándares claros para la colaboración entre ciencia académica e industria privada. Este paso de DeepMind podría acelerar descubrimientos clave mientras redefine las dinámicas de accesibilidad y comercialización en la ciencia moderna.
LINK: https://www.nature.com/articles/d41586-024-03708-4

DeepL Lanza DeepL Voice: Traducciones de Voz en Tiempo Real

DeepL, conocido por sus traducciones textuales precisas, ha dado un gran paso al lanzar DeepL Voice, un servicio que traduce conversaciones en vivo y videos en tiempo real, con un enfoque en texto en lugar de audio. Esta nueva función se integra inicialmente con Microsoft Teams y amplía las capacidades de la plataforma hacia el ámbito de voz y subtítulos.
Puntos clave:
1. Traducciones rápidas y en tiempo real: DeepL Voice permite traducir voz de 14 idiomas a texto en 33 idiomas disponibles en la plataforma. Su enfoque en texto garantiza respuestas casi inmediatas, ideal para videoconferencias, reuniones y la industria de servicios, donde la velocidad es clave.
2. Sin audio ni API (por ahora): Aunque aún no genera traducciones en formato de audio o video, ni cuenta con una API pública, DeepL Voice se distingue por priorizar la inmediatez y la precisión. Esta decisión responde a la demanda de los usuarios y a las limitaciones técnicas actuales para ofrecer audio en tiempo real.
3. Privacidad y cumplimiento normativo: DeepL asegura que las voces enviadas a sus servidores no se almacenan ni se usan para entrenar sus modelos, lo que garantiza el cumplimiento de regulaciones como GDPR.
DeepL Voice marca el inicio de una nueva era para la traducción en vivo, un área con creciente demanda en sectores como negocios, atención al cliente y turismo. Aunque aún limitado en ciertas funcionalidades, este servicio pone a DeepL en competencia directa con gigantes como Google y startups especializadas como ElevenLabs, mostrando cómo la IA sigue transformando la comunicación global.
LINK: https://techcrunch.com/2024/11/13/deepl-launches-deepl-voice-real-time-text-based-translations-from-voices-and-videos/

01.ai Desafía a GPT-4 con Solo 2,000 GPUs y un Presupuesto Reducido

La empresa china 01.ai ha sorprendido al sector de la inteligencia artificial al entrenar un modelo avanzado comparable a GPT-4 utilizando solo 2,000 GPUs y un presupuesto de $3 millones. Este enfoque contrasta drásticamente con los $80-$100 millones que OpenAI invirtió en GPT-4, demostrando que la eficiencia técnica puede competir con recursos masivos.
Puntos clave:
1. Innovación frente a limitaciones: Debido a restricciones de exportación de EE.UU. y acceso limitado a GPUs avanzadas, 01.ai optimizó su proceso de entrenamiento, logrando entrenar su modelo Yi-Lightning con recursos limitados. Esto pone de relieve cómo una ingeniería meticulosa puede superar las desventajas de hardware y financiación.
2. Avances técnicos en inferencia: Para reducir costos y aumentar la eficiencia, 01.ai diseñó un motor de inferencia especializado que transformó las demandas computacionales en tareas orientadas a memoria. Esto permitió que sus costos de inferencia fueran de solo $0.10 por millón de tokens, 30 veces más bajo que modelos comparables.
3. Impacto competitivo: A pesar de la disparidad de recursos, el modelo Yi-Lightning se posiciona como el sexto mejor del mundo según LMSIS de UC Berkeley. Esto subraya que el rendimiento de IA no depende exclusivamente de grandes inversiones, sino de enfoques innovadores en optimización de procesos.
El logro de 01.ai redefine las expectativas en la industria de IA, mostrando que las barreras financieras y tecnológicas pueden superarse con estrategias eficientes. Este avance podría inspirar a otras empresas a innovar con recursos limitados, desafiando el dominio de gigantes como OpenAI y democratizando el desarrollo de modelos avanzados.
LINK: https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-company-trained-gpt-4-rival-with-just-2-000-gpus-01-ai-spent-usd3m-compared-to-openais-usd80m-to-usd100m

Qwen2.5-Coder: El nuevo estándar en modelos abiertos para programación

La serie Qwen2.5-Coder, desarrollada por el equipo de Qwen, se posiciona como un conjunto de modelos diseñados para avanzar en el desarrollo de LLMs especializados en programación. Este lanzamiento destaca por su rendimiento de vanguardia y su flexibilidad para satisfacer las necesidades de diferentes desarrolladores.
Puntos clave:
1. Rendimiento sobresaliente y versatilidad técnica: El modelo Qwen2.5-Coder-32B-Instruct establece un nuevo estándar en modelos abiertos para generación, reparación y razonamiento de código. Compite directamente con GPT-4o, destacando en más de 40 lenguajes de programación y logrando puntuaciones récord en benchmarks como EvalPlus y McEval.
2. Diversidad en tamaños de modelo: Con seis tamaños disponibles (desde 0.5B hasta 32B), Qwen2.5-Coder responde a necesidades variadas, desde usuarios con recursos limitados hasta investigadores que requieren capacidades avanzadas. Además, incluye versiones Base para personalización y modelos Instruct alineados con preferencias humanas.
3. Aplicaciones prácticas: Qwen2.5-Coder muestra su utilidad en asistentes de programación (como su integración con Cursor) y creación de artefactos, facilitando tareas como completar código, desarrollar mini-juegos o generar gráficos de datos.
Qwen2.5-Coder democratiza el acceso a herramientas de programación avanzadas al ofrecer modelos abiertos de alto rendimiento. Esto no sólo impulsa la innovación en el desarrollo de software, sino que también fomenta una comunidad de investigación más colaborativa y accesible.

LINK: https://qwenlm.github.io/blog/qwen2.5-coder-family/

Anthropic Introduce un Mejorador de Prompts en su Consola

Anthropic ha lanzado nuevas herramientas en su Consola de Desarrolladores para mejorar prompts y gestionar ejemplos, simplificando la implementación de mejores prácticas en ingeniería de prompts. Estas funcionalidades permiten a los desarrolladores optimizar sus aplicaciones de IA y garantizar respuestas más confiables de los modelos.

We’ve added a new prompt improver to the Anthropic Console.
Take an existing prompt and Claude will automatically refine it with prompt engineering techniques like chain-of-thought reasoning.
— Anthropic (@AnthropicAI)
5:08 PM • Nov 14, 2024

LINK: https://www.anthropic.com/news/prompt-improver

Robots

Un robot entrenado con vídeos de cirugía iguala las habilidades de los médicos humanos

Un equipo de investigadores de la Universidad Johns Hopkins ha logrado un avance revolucionario en la robótica médica: entrenar un robot quirúrgico mediante videos de cirugías realizadas por médicos humanos. Este enfoque, basado en aprendizaje por imitación, permite a los robots aprender procedimientos quirúrgicos con un nivel de destreza comparable al de los cirujanos experimentados, marcando un paso clave hacia la autonomía en la cirugía robótica.
Puntos clave:
1. Imitación en lugar de programación manual: El robot, basado en el sistema da Vinci, aprendió a realizar tareas esenciales (como suturar y manipular tejido) al observar cientos de videos grabados por cámaras en robots quirúrgicos. Este enfoque elimina la necesidad de programar cada movimiento, reduciendo drásticamente el tiempo necesario para entrenar robots para nuevas tareas.
2. Avances tecnológicos aplicados a la robótica: El modelo combina aprendizaje por imitación con arquitecturas de machine learning similares a las que usa ChatGPT, pero adaptadas para entender "cinemática", el lenguaje matemático del movimiento robótico. Esto permite que el robot actúe con precisión incluso en situaciones no previstas, como recoger una aguja caída.
3. Hacia la autonomía total en cirugía: Este método tiene el potencial de acelerar el desarrollo de robots quirúrgicos completamente autónomos, capaces de realizar cirugías completas con menos errores humanos. El equipo ya trabaja en ampliar este sistema para entrenar robots en procedimientos quirúrgicos más complejos en cuestión de días.
Este avance abre una nueva frontera en la cirugía robótica, acercándonos a una era donde los robots no sólo asistan a médicos, sino que realicen cirugías con precisión mejorada y menos riesgos. Esto promete transformar la medicina, aumentando el acceso a procedimientos complejos y reduciendo costos y errores.

LINK: https://hub.jhu.edu/2024/11/11/surgery-robots-trained-with-videos/

Robot Todoterreno de DEEP Robotics

Extreme Off-Road | #DEEPRobotics#Lynx All-Terrian #Robot
#robotdog#tech#ai#quadrupedrobot#robotics
— DEEP Robotics (@DeepRobotics_CN)
7:33 AM • Nov 13, 2024

Boletín Semanal Best-IA #67

Aprende IA, día a día.

Noticias

Google Presenta Gemini-Exp-1114: El Modelo Experimental que Lidera el Chatbot Arena Benchmark

xAI: Grok será Gratuito y $6 Mil Millones para Infraestructura de IA

ChatGPT para macOS: Ahora compatible con Xcode y herramientas de desarrollo

Google Lanza la App de Gemini para iOS

AlphaFold3: DeepMind “Abre” el Código de su Herramienta de Predicción de Proteínas

DeepL Lanza DeepL Voice: Traducciones de Voz en Tiempo Real

01.ai Desafía a GPT-4 con Solo 2,000 GPUs y un Presupuesto Reducido

Qwen2.5-Coder: El nuevo estándar en modelos abiertos para programación

Anthropic Introduce un Mejorador de Prompts en su Consola

Robots

Un robot entrenado con vídeos de cirugía iguala las habilidades de los médicos humanos

Robot Todoterreno de DEEP Robotics

Reflexiones Finales

Las mentes más brillantes de la IA explican lo que vendrá después de GPT-4o