- Best-IA Newsletter
- Posts
- Boletín Semanal Best-IA #66
Boletín Semanal Best-IA #66
Aprende IA, día a día.
Tutoriales
Tutorial API xAI Grok: 25$ GRATIS
Crea un equipo de agentes con CrewAI
Noticias
OpenAI reduce la Latencia en GPT-4o y GPT-4o-mini con Predicted Outputs
OpenAI ha lanzado "Predicted Outputs", una funcionalidad diseñada para reducir significativamente la latencia en los modelos GPT-4o y GPT-4o-mini mediante el uso de una cadena de referencia que anticipa la respuesta deseada.
Puntos clave:
Respuesta Rápida con una Referencia: La función permite al usuario proporcionar una referencia, como una frase o párrafo, para que el modelo genere respuestas basadas en esa guía, acelerando el tiempo de respuesta.
Aplicaciones Prácticas: Esta mejora es útil para tareas repetitivas como actualizar un blog, revisar respuestas previas o editar código en documentos existentes, facilitando iteraciones más rápidas y eficientes.
Optimización de Latencia: Al "predecir" el contenido, el sistema reduce la latencia del modelo, especialmente útil en aplicaciones que requieren respuestas en tiempo real o mayor velocidad en entornos de producción.
Predicted Outputs promete mejorar la eficiencia de los modelos de OpenAI en tareas donde la rapidez es esencial, optimizando flujos de trabajo para desarrolladores y creadores de contenido que usan GPT-4o en sus proyectos.
Introducing Predicted Outputs—dramatically decrease latency for gpt-4o and gpt-4o-mini by providing a reference string. platform.openai.com/docs/guides/la…
Speed up:
- Updating a blog post in a doc
- Iterating on prior responses
- Rewriting code in an existing file, like @exponent_run here:— OpenAI Developers (@OpenAIDevs)
10:27 PM • Nov 4, 2024
Anthropic y Palantir se Asocian para Potenciar la Inteligencia Artificial en Defensa y Seguridad de EE.UU.
Anthropic, Palantir y Amazon Web Services (AWS) han formado una alianza estratégica para ofrecer capacidades avanzadas de inteligencia artificial a agencias de inteligencia y defensa de Estados Unidos. Esta colaboración busca mejorar el procesamiento de datos y la toma de decisiones en entornos altamente seguros.
Puntos Clave:
Acceso a Claude 3 y 3.5 en Palantir AIP: Las agencias gubernamentales podrán utilizar los modelos Claude 3 y 3.5 de Anthropic integrados en la plataforma de IA de Palantir (AIP), a través de la infraestructura segura de AWS, que cumple con los más altos estándares de seguridad.
Optimización de Operaciones Críticas: La tecnología permitirá a las agencias procesar grandes volúmenes de datos, reconocer patrones, agilizar la revisión de documentos y apoyar la toma de decisiones, sin reemplazar el juicio humano, sino potenciándolo.
Cumplimiento de Protocolos de Seguridad Rigurosos: El sistema está alojado en un entorno con nivel de seguridad IL6, certificado por la Agencia de Sistemas de Información de Defensa (DISA), lo que asegura su adaptación a operaciones clasificadas y de alta sensibilidad.
Esta alianza refuerza una tendencia creciente en la que las grandes empresas de IA buscan integrarse en el sector de defensa de EE.UU. Con esta colaboración, Anthropic y Palantir se posicionan para dar a EE.UU. una ventaja estratégica en inteligencia artificial, en un contexto en el que la competencia global por la superioridad tecnológica en defensa es cada vez más intensa.
Claude 3.5 Haiku ya está disponible en su API, Amazon Bedrock y Google Cloud’s Vertex AI
Claude 3.5 Haiku, la última versión de Anthropic, ya está disponible en su API, Amazon Bedrock y Google Cloud’s Vertex AI. Este modelo destaca en velocidad y rendimiento, superando incluso a modelos avanzados como GPT-4o en pruebas de resolución de problemas de software.
Puntos clave:
Optimizado para Codificación y Desarrollo: Claude 3.5 Haiku es particularmente eficaz en la generación de código y soporte a equipos de desarrollo, ofreciendo sugerencias rápidas y precisas que agilizan los flujos de trabajo y mejoran la productividad.
Amplia Gama de Casos de Uso: Además de codificación, el modelo es ideal para chatbots interactivos, extracción de datos, etiquetado de información y moderación de contenido en tiempo real. Estas capacidades lo hacen versátil para aplicaciones en atención al cliente, plataformas educativas, finanzas y moderación de redes sociales.
Costo y Eficiencia Mejorados: Aunque se ha incrementado el precio debido a sus avances, Claude 3.5 Haiku ofrece opciones de ahorro de hasta un 90% mediante el caché de prompts y un 50% con la API de Mensajes en Lotes, lo que lo convierte en una opción competitiva para empresas que buscan eficiencia y escalabilidad.
Claude 3.5 Haiku promete optimizar tareas complejas en múltiples sectores, con un enfoque especial en la codificación y el manejo de grandes volúmenes de datos. Su velocidad y precisión lo posicionan como una herramienta poderosa para organizaciones que necesitan soluciones rápidas y efectivas en entornos de producción.
Claude 3.5 Haiku is now available on our API, Amazon Bedrock, and Google Cloud's Vertex AI.
Haiku is fast and particularly strong at coding. It outperforms state-of-the-art models—including GPT-4o—on SWE-bench Verified, which measures how models solve real software issues.
— Anthropic (@AnthropicAI)
6:03 PM • Nov 4, 2024
Microsoft Lanza Magentic-One: Un Nuevo Marco para Agentes Autónomos Colaborativos
Esta semana, Microsoft presentó "Magentic-One", un innovador marco para agentes de IA que permite a múltiples agentes trabajar de manera coordinada en tareas complejas. Este framework tiene el potencial de transformar la colaboración entre agentes de IA especializados.
Puntos clave:
Proceso en Cuatro Pasos para Tareas Autónomas: Magentic-One utiliza agentes que siguen un ciclo de “Planificación, Acción, Observación y Reflexión” para dividir tareas grandes en subtareas y ejecutarlas paso a paso. En pruebas, los agentes lograron encargarse de tareas como pedir un sándwich de manera autónoma.
Orquestador de Agentes: Un modelo de lenguaje, llamado "Orchestrator", coordina a los agentes formulando cinco preguntas clave después de cada acción. Estas preguntas ayudan a evaluar el progreso, evitar bucles, y decidir el próximo paso, además de gestionar tiempos de espera y fallos.
Agentes Especializados para Tareas Específicas: Microsoft ha creado agentes con roles específicos, como el "Websurfer", "Coder" y "FileSurfer", cada uno enfocado en una tarea precisa (navegar en internet, ejecutar código, buscar en archivos, etc.), lo que permite una colaboración eficiente en equipos de agentes.
Magentic-One abre la puerta a un futuro en el que agentes hiper-especializados colaboren para resolver problemas complejos, especialmente en entornos empresariales. Aunque el marco aún no supera a los mejores modelos en benchmarks como AssistantBench y GAIA, su estructura colaborativa tiene un enorme potencial en aplicaciones prácticas a gran escala.
![](https://www.microsoft.com/en-us/research/uploads/prod/2024/11/benchmark-67297634410a6-1024x627.png)
xAI Lanza su API para Desarrolladores en Beta Pública
xAI ha anunciado el lanzamiento de su API en versión beta, permitiendo a los desarrolladores acceso completo a Grok, su modelo de lenguaje de última generación. Esta API está diseñada para facilitar la integración de Grok en proyectos de IA, ofreciendo funcionalidades avanzadas y un acceso simplificado.
Puntos clave:
Acceso Beta a Grok-Beta: Hasta fin de 2024, los desarrolladores pueden probar el modelo grok-beta, que incluye características avanzadas como llamadas a funciones, soporte para prompts de sistema y un contexto extenso de hasta 128,000 tokens.
Compatibilidad con SDKs Existentes: La API de xAI es compatible con los SDKs de OpenAI y Anthropic, lo que permite migrar fácilmente a Grok cambiando la URL y generando una clave de API.
Créditos Gratuitos Durante la Beta: Todos los usuarios registrados recibirán $25 en créditos gratuitos mensualmente hasta finales de 2024, incentivando la experimentación y facilitando el acceso al modelo Grok sin costo inicial.
Con esta beta pública, xAI se posiciona como un competidor fuerte en el espacio de modelos de lenguaje avanzados, proporcionando a los desarrolladores herramientas para construir aplicaciones sofisticadas y explorar nuevas capacidades de IA a gran escala.
LINK: https://x.ai/api
Google Lanza el Modelo Gemini en la Librería de OpenAI
A partir de ahora, los desarrolladores pueden acceder a los modelos Gemini de Google a través de la OpenAI Library y la API REST, facilitando la integración de estos modelos avanzados en sus aplicaciones. La compatibilidad inicial incluye la API de Chat Completions y la API de Embeddings, con planes para expandir el soporte en los próximos meses.
Puntos clave:
Acceso Simplificado a Gemini: Los desarrolladores ahora pueden utilizar los modelos Gemini directamente desde la OpenAI Library o mediante la API REST de Google, agilizando el proceso de integración en sus proyectos de IA.
Ejemplos de Código: Google proporciona ejemplos de código en Python, JavaScript/TypeScript y REST para que los desarrolladores puedan comenzar rápidamente a usar Gemini en sus aplicaciones. Estos ejemplos muestran cómo realizar consultas simples al modelo Gemini-1.5-Flash.
Compatibilidad con Vertex AI Enterprise: Para los clientes de Vertex AI Enterprise, la API de Gemini también es compatible con OpenAI, lo que facilita la implementación en entornos empresariales.
Con el lanzamiento de Gemini en la OpenAI Library, Google busca hacer que sus modelos avanzados sean más accesibles a la comunidad de desarrolladores, promoviendo una mayor adopción en aplicaciones comerciales y experimentales. Esta integración promete mejorar el flujo de trabajo para desarrolladores que buscan capacidades avanzadas de IA en un ecosistema interoperable.
LINK: https://developers.googleblog.com/en/gemini-is-now-accessible-from-the-openai-library/
Epoch AI Lanza FrontierMath: Un Nuevo Benchmark para Evaluar el Razonamiento Matemático Avanzado en IA
Epoch AI ha lanzado FrontierMath, un benchmark de alto nivel para evaluar la capacidad de razonamiento matemático en sistemas de IA. Desarrollado en colaboración con más de 60 matemáticos destacados, FrontierMath plantea problemas matemáticos originales y extremadamente complejos que los modelos actuales de IA apenas logran resolver en un 2%.
Puntos clave:
Superando Limitaciones de Benchmarks Previos: A diferencia de benchmarks existentes como GSM8K y MATH, que están cerca de saturarse con puntajes de IA superiores al 90%, FrontierMath evita la contaminación de datos al ofrecer problemas inéditos y de alta dificultad, que incluso a los expertos les tomaría horas o días resolver.
Diseño Rigurosamente Controlado: Los problemas de FrontierMath cubren áreas avanzadas como teoría de números, geometría algebraica y teoría de categorías. Están diseñados para ser "adivinación-proof" y tienen soluciones verificables automáticamente, lo que asegura que solo modelos con razonamiento sólido puedan resolverlos.
Un Escenario Ideal para Evaluar Razonamiento Complejo: Matemáticos reconocidos, como los medallistas Fields Terence Tao y Timothy Gowers, han confirmado la dificultad de estos problemas, destacando que requieren una lógica precisa y pensamiento creativo. FrontierMath se convierte así en una herramienta valiosa para medir el progreso de la IA en tareas que demandan razonamiento prolongado y sistemático.
FrontierMath eleva los estándares para evaluar la inteligencia y creatividad en IA, ofreciendo un indicio de cómo podría medirse el potencial de la IA para realizar investigaciones científicas complejas. Este benchmark representa un paso crucial hacia el desarrollo de modelos que puedan abordar problemas genuinamente desafiantes, con aplicaciones potenciales en matemáticas y más allá.
1/10 Today we're launching FrontierMath, a benchmark for evaluating advanced mathematical reasoning in AI. We collaborated with 60+ leading mathematicians to create hundreds of original, exceptionally challenging math problems, of which current AI systems solve less than 2%.
— Epoch AI (@EpochAIResearch)
9:05 PM • Nov 8, 2024
Hume Lanza Nueva App con Asistentes de IA Personalizados y Emotivos
La nueva aplicación de Hume introduce asistentes impulsados por su modelo de lenguaje y voz, EVI 2, en combinación con modelos avanzados como Claude 3.5 Haiku de Anthropic. Este lanzamiento ofrece una plataforma capaz de responder preguntas rápidas, brindar apoyo emocional, contar historias y mucho más.
Puntos clave:
Asistentes con Personalidad: EVI 2 genera voces y personalidades propias, aportando una dimensión emocional y teatral a las interacciones, ideal para soporte emocional y storytelling.
Integración con Herramientas de Vanguardia: La app combina EVI 2 con modelos LLM como Claude 3.5 de Anthropic y capacidades de búsqueda en la web, proporcionando respuestas rápidas y actualizadas en tiempo real.
Versatilidad en Casos de Uso: Desde responder preguntas simples hasta sostener conversaciones profundas, la app demuestra el potencial de combinar distintos modelos y herramientas para diferentes necesidades.
La nueva app de Hume explora un nuevo enfoque de asistentes de IA personalizados, con una interacción más humana y adaptable, que podría transformar el soporte emocional y las consultas de información en línea.
Introducing the new Hume App
Featuring brand new assistants that combine voices and personalities generated by our speech-language model, EVI 2, with supplemental LLMs and tools like the new Claude 3.5 Haiku from @AnthropicAI.
— Hume (@hume_ai)
8:50 PM • Nov 4, 2024
LINK: https://app.hume.ai/
Osmo Logra la Teletransportación de Olores: Llega la Digitalización del Olfato
La empresa Osmo ha alcanzado un avance significativo en su ambicioso proyecto de teletransportación de olores, una tecnología capaz de capturar un olor en un lugar y reproducirlo en otro. Recientemente, lograron su primera transmisión de un aroma —el de un coco— en sus laboratorios, sentando las bases para un futuro en el que los olores puedan compartirse a distancia.
Puntos clave:
Proceso de Digitalización del Olor: La teletransportación de olores se inicia capturando las moléculas del aroma usando un cromatógrafo de gases y espectrómetro de masas (GCMS). Los datos se suben a la nube y se mapean en el Principal Odor Map, una herramienta avanzada de IA que predice la combinación de moléculas necesaria para recrear el aroma original.
Reproducción del Olor: Una vez obtenida la "receta" molecular, un robot de formulación mezcla diferentes aromas para crear una réplica del olor inicial. El equipo de Osmo compara la recreación con el aroma original, buscando una similitud alta y capturando hasta los matices más sutiles.
Pruebas y Progreso Continuo: Osmo realiza pruebas mensuales para mejorar la precisión y automatización de su tecnología. También han construido la mayor base de datos de aromas compatibles con IA, que nutre sus algoritmos de aprendizaje automático, acercándose cada vez más a una teletransportación de olores accesible y rápida.
Este avance promete revolucionar cómo experimentamos el mundo olfativo, con aplicaciones potenciales en turismo, comercio, y experiencias sensoriales remotas. La teletransportación de olores podría, en el futuro, permitir que las personas compartan aromas únicos, conectando el mundo de una manera tan inmediata como enviamos imágenes o música hoy.
LINK: https://www.osmo.ai/blog/update-scent-teleportation-we-did-it