Best-IA Newsletter
Posts
Boletín Semanal Best-IA #23

Boletín Semanal Best-IA #23

Prompts. Noticias de la semana.

Best-IA
26 de diciembre de 2023

Best-IA. ¡Aprende IA, día a día!

Prompts

OpenAI acaba de publicar su guía oficial sobre cómo obtener mejores resultados de los grandes modelos de lenguaje.

Estrategias Generales

Experimentación: Se anima a los usuarios a experimentar con diferentes enfoques para encontrar lo que mejor funciona para sus necesidades específicas.

Estrategias Específicas

Escribir Instrucciones Claras:
- Los modelos de lenguaje no pueden leer la mente, por lo que la claridad es fundamental.
- Si los resultados son demasiado largos, se puede pedir respuestas breves; si son demasiado simples, se puede solicitar escritura a nivel de experto.
- Si el formato no es del agrado del usuario, se puede mostrar al modelo el formato deseado.
Tácticas:
- Incluir detalles en la consulta para obtener respuestas más relevantes.
- Pedir al modelo que adopte una persona.
- Usar delimitadores para indicar claramente partes distintas de la entrada.
- Especificar los pasos para completar una tarea.
- Proporcionar ejemplos y la longitud deseada de la salida.
- Ofrecer texto de referencia.
Evitar Respuestas Inventadas:
- Los modelos pueden inventar respuestas, especialmente en temas esotéricos o al pedir citas y URLs.
- Proporcionar texto de referencia puede ayudar a obtener respuestas más precisas.
Tácticas:
- Instruir al modelo para que responda usando un texto de referencia.
- Pedir respuestas con citas de un texto de referencia.
Descomposición de Tareas Complejas:
- Como en ingeniería de software, descomponer tareas complejas en componentes modulares puede ser efectivo.
- Las tareas complejas tienden a tener mayores tasas de error.
Tácticas:
- Clasificación de intención para identificar instrucciones relevantes.
- Para aplicaciones de diálogo con conversaciones largas, resumir o filtrar diálogos previos.
- Resumir documentos largos por partes y construir un resumen completo recursivamente.
Dar Tiempo al Modelo para "Pensar":
- Los modelos hacen menos errores de razonamiento si no se les pide responder inmediatamente.
Tácticas:
- Instruir al modelo para que elabore su propia solución antes de concluir.
- Usar monólogo interno o una secuencia de consultas para revelar el proceso de razonamiento del modelo.
Uso de Herramientas Externas:
- Complementar las debilidades del modelo con herramientas externas, como sistemas de recuperación de texto o motores de ejecución de código.
Tácticas:
- Uso de búsqueda basada en embeddings para una recuperación de conocimientos eficiente.
- Ejecución de código para cálculos más precisos o llamadas a APIs externas.
Pruebas Sistemáticas:
- Medir y evaluar los cambios de rendimiento sistemáticamente es crucial.
Táctica:
- Evaluar las salidas del modelo con referencia a respuestas estándar de oro (gold-standard answers).

Importancia de la Personalización

Cada usuario y tarea puede requerir un enfoque ligeramente diferente. Esta guía anima a los usuarios a adaptar estas estrategias a sus necesidades específicas para obtener los mejores resultados posibles.

LINK: https://platform.openai.com/docs/guides/prompt-engineering/strategy-test-changes-systematically

Noticias

Deepmind presenta su nuevo modelo “FunSearch”: Nuevos descubrimientos en ciencias matemáticas mediante LLMs

FunSearch (abreviatura de búsqueda en el espacio de funciones) es un método para buscar nuevas soluciones en matemáticas e informática.
Funciona emparejando un LLM preentrenado, cuyo objetivo es aportar soluciones creativas en forma de código informático, con un "evaluador" automatizado, que protege contra alucinaciones e ideas incorrectas.
Mediante la iteración entre estos dos componentes, las soluciones iniciales "evolucionan" hasta convertirse en nuevos conocimientos. El sistema busca "funciones" escritas en código informático; de ahí el nombre de FunSearch.
Esta metodología ha superado los mejores resultados conocidos en problemas importantes, ampliando los límites de los enfoques basados en LLM.
A diferencia de la mayoría de los enfoques de búsqueda computacional, FunSearch busca programas que describen cómo resolver un problema, en lugar de cuál es la solución.
- Los programas descubiertos tienden a ser más interpretables que las soluciones puras.
Beneficios Adicionales:
- Facilita bucles de retroalimentación entre expertos del dominio y FunSearch.
- Permite la implementación de estos programas en aplicaciones del mundo real.
LINK: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/
PAPER: https://www.nature.com/articles/s41586-023-06924-6
GITHUB: https://github.com/google-deepmind/funsearch

Ya está disponible MIDJOURNEY V6

Google presenta VideoPoet: Un LLM para la generación de vídeos sin ejemplos previos

Versatilidad en la Generación de Videos: Capaz de realizar una variedad de tareas como texto-a-video, imagen-a-video, estilización de video, inpainting y outpainting de video, y video-a-audio.
LLMs en la Generación de Videos: Utiliza modelos de lenguaje para la generación de video, aprovechando mejoras en la eficiencia y capacidad de aprendizaje, a diferencia de los modelos basados en difusión.
Diseño Innovador: Integra capacidades de generación de video en un solo LLM, evitando la necesidad de componentes entrenados por separado para cada tarea.
Tokenización de Video y Audio: Emplea tokenizadores para convertir clips de video y audio en secuencias de tokens, que luego se traducen de nuevo a representaciones visuales.
Ejemplos Impresionantes: Genera videos desde una variedad de entradas de texto, mostrando su habilidad para capturar y animar una gama de movimientos y estilos.
Control de Imagen a Video: Anima imágenes con base en indicaciones textuales, permitiendo una amplia gama de movimientos y transformaciones visuales.
Estilización de Video Avanzada: Predice flujo óptico y profundidad antes de alimentar el video al modelo para estilizaciones guiadas por texto.
Generación de Audio: Capaz de generar clips de audio a partir de videos, expandiendo las capacidades multimodales del modelo.
Orientación al Contenido de Formato Corto: Por defecto, genera videos en orientación vertical, ideal para contenidos breves y dinámicos.
Producción de Largometrajes: Muestra su capacidad para generar videos más largos y coherentes, manteniendo la consistencia en la apariencia de objetos a lo largo de múltiples iteraciones.
Edición Interactiva de Videos: Permite la manipulación interactiva y el control de movimientos en videos generados previamente.
Control Preciso del Movimiento de Cámara: Incorpora comandos específicos para movimientos de cámara, como zoom, paneo y tomas de dron, entre otros.
Resultados de Evaluación Positivos: Supera a modelos competidores en fidelidad de texto y generación de movimientos interesantes, según las valoraciones de los usuarios.
Potencial Futuro: Indica un futuro prometedor para los LLMs en la generación de videos, con planes de expandirse a generación "cualquiera-a-cualquiera" como texto-a-audio, audio-a-video y subtitulado de video.

Introducing VideoPoet, a large language model for zero-shot video generation that produces a range of large & smooth motions while preserving objects’ appearance over multiple seconds. Learn more and check out a range of example generated videos → goo.gle/4atanoj
— Google AI (@GoogleAI)
10:16 PM • Dec 19, 2023

Reinventando la Locomoción Humanoide mediante Aprendizaje por Refuerzo

La Universidad de California, Berkeley, ha desarrollado un controlador basado en el aprendizaje para robots humanoides, con potencial para ayudar en fábricas, asistencia a personas mayores y colonización de planetas.
Los investigadores han creado un "cerebro" para robots que aprende de las experiencias pasadas para decidir cómo moverse a continuación.
- El controlador es un Transformer causal que toma como entrada el historial de observaciones y acciones propioceptivas y predice la siguiente acción
El robot fue entrenado en un mundo virtual con diferentes tipos de suelos y obstáculos, mediante aprendizaje por refuerzo.
Después de entrenar en la simulación, el robot pudo caminar en el mundo real sin problemas, en lugares como parques y aceras.
El robot puede caminar en diferentes direcciones, incluso hacia atrás, y girar,
Este enfoque condujo a comportamientos emergentes de balanceo dinámico del brazo similares a los humanos en coordinación con los movimientos de la pierna, es decir, una relación contralateral entre los brazos y la pierna.
¿Puede el Robot Adaptarse a Situaciones Nuevas?:
- Sí, por ejemplo, si se tropieza con un escalón, aprende a levantar más sus piernas la próxima vez.
- También ajusta su forma de caminar dependiendo del tipo de terreno, como en una pendiente.
- Los investigadores probaron su estabilidad empujándolo con un palo o lanzándole una pelota de yoga, y el robot fue capaz de mantenerse en pie.
GITHUB: https://learning-humanoid-locomotion.github.io/

Las canciones hechas completamente con IA ya están aquí

You can make great music, whether you're a shower singer or a charting artist. No instrument needed, just imagination.
Make your song today at suno.ai 🎧
— Suno (@suno_ai_)
2:29 AM • Dec 20, 2023

LINK: Suno.ai
También disponible como plugin en Microsoft Copilot

2 nuevos modelos de Síntesis coherente y controlable de imagen a vídeo para la animación de personajes

Animate Anyone y MagicAnimate

Reflexiones Finales

Por qué la predicción del siguiente token es suficiente para llegar a la AGI - Ilya Sutskever (Científico Jefe de OpenAI)

Volvemos el día 8 de enero. ¡Feliz Navidad!