Boletín Semanal Best-IA #23

Prompts. Noticias de la semana.

Prompts

OpenAI acaba de publicar su guía oficial sobre cómo obtener mejores resultados de los grandes modelos de lenguaje.

Estrategias Generales

  1. Experimentación: Se anima a los usuarios a experimentar con diferentes enfoques para encontrar lo que mejor funciona para sus necesidades específicas.

Estrategias Específicas

  1. Escribir Instrucciones Claras:

    • Los modelos de lenguaje no pueden leer la mente, por lo que la claridad es fundamental.

    • Si los resultados son demasiado largos, se puede pedir respuestas breves; si son demasiado simples, se puede solicitar escritura a nivel de experto.

    • Si el formato no es del agrado del usuario, se puede mostrar al modelo el formato deseado.

    Tácticas:

    • Incluir detalles en la consulta para obtener respuestas más relevantes.

    • Pedir al modelo que adopte una persona.

    • Usar delimitadores para indicar claramente partes distintas de la entrada.

    • Especificar los pasos para completar una tarea.

    • Proporcionar ejemplos y la longitud deseada de la salida.

    • Ofrecer texto de referencia.

  2. Evitar Respuestas Inventadas:

    • Los modelos pueden inventar respuestas, especialmente en temas esotéricos o al pedir citas y URLs.

    • Proporcionar texto de referencia puede ayudar a obtener respuestas más precisas.

    Tácticas:

    • Instruir al modelo para que responda usando un texto de referencia.

    • Pedir respuestas con citas de un texto de referencia.

  3. Descomposición de Tareas Complejas:

    • Como en ingeniería de software, descomponer tareas complejas en componentes modulares puede ser efectivo.

    • Las tareas complejas tienden a tener mayores tasas de error.

    Tácticas:

    • Clasificación de intención para identificar instrucciones relevantes.

    • Para aplicaciones de diálogo con conversaciones largas, resumir o filtrar diálogos previos.

    • Resumir documentos largos por partes y construir un resumen completo recursivamente.

  4. Dar Tiempo al Modelo para "Pensar":

    • Los modelos hacen menos errores de razonamiento si no se les pide responder inmediatamente.

    Tácticas:

    • Instruir al modelo para que elabore su propia solución antes de concluir.

    • Usar monólogo interno o una secuencia de consultas para revelar el proceso de razonamiento del modelo.

  5. Uso de Herramientas Externas:

    • Complementar las debilidades del modelo con herramientas externas, como sistemas de recuperación de texto o motores de ejecución de código.

    Tácticas:

    • Uso de búsqueda basada en embeddings para una recuperación de conocimientos eficiente.

    • Ejecución de código para cálculos más precisos o llamadas a APIs externas.

  6. Pruebas Sistemáticas:

    • Medir y evaluar los cambios de rendimiento sistemáticamente es crucial.

    Táctica:

    • Evaluar las salidas del modelo con referencia a respuestas estándar de oro (gold-standard answers).

Importancia de la Personalización

Cada usuario y tarea puede requerir un enfoque ligeramente diferente. Esta guía anima a los usuarios a adaptar estas estrategias a sus necesidades específicas para obtener los mejores resultados posibles.

Noticias

Deepmind presenta su nuevo modelo “FunSearch”: Nuevos descubrimientos en ciencias matemáticas mediante LLMs

  • FunSearch (abreviatura de búsqueda en el espacio de funciones) es un método para buscar nuevas soluciones en matemáticas e informática.

  • Funciona emparejando un LLM preentrenado, cuyo objetivo es aportar soluciones creativas en forma de código informático, con un "evaluador" automatizado, que protege contra alucinaciones e ideas incorrectas.

  • Mediante la iteración entre estos dos componentes, las soluciones iniciales "evolucionan" hasta convertirse en nuevos conocimientos. El sistema busca "funciones" escritas en código informático; de ahí el nombre de FunSearch.

  • Esta metodología ha superado los mejores resultados conocidos en problemas importantes, ampliando los límites de los enfoques basados en LLM.

  • A diferencia de la mayoría de los enfoques de búsqueda computacional, FunSearch busca programas que describen cómo resolver un problema, en lugar de cuál es la solución.

    • Los programas descubiertos tienden a ser más interpretables que las soluciones puras.

  • Beneficios Adicionales:

    • Facilita bucles de retroalimentación entre expertos del dominio y FunSearch.

    • Permite la implementación de estos programas en aplicaciones del mundo real.

  • LINK: https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/

  • PAPER: https://www.nature.com/articles/s41586-023-06924-6

  • GITHUB: https://github.com/google-deepmind/funsearch

Ya está disponible MIDJOURNEY V6

Google presenta VideoPoet: Un LLM para la generación de vídeos sin ejemplos previos

  1. Versatilidad en la Generación de Videos: Capaz de realizar una variedad de tareas como texto-a-video, imagen-a-video, estilización de video, inpainting y outpainting de video, y video-a-audio.

  2. LLMs en la Generación de Videos: Utiliza modelos de lenguaje para la generación de video, aprovechando mejoras en la eficiencia y capacidad de aprendizaje, a diferencia de los modelos basados en difusión.

  3. Diseño Innovador: Integra capacidades de generación de video en un solo LLM, evitando la necesidad de componentes entrenados por separado para cada tarea.

  4. Tokenización de Video y Audio: Emplea tokenizadores para convertir clips de video y audio en secuencias de tokens, que luego se traducen de nuevo a representaciones visuales.

  5. Ejemplos Impresionantes: Genera videos desde una variedad de entradas de texto, mostrando su habilidad para capturar y animar una gama de movimientos y estilos.

  6. Control de Imagen a Video: Anima imágenes con base en indicaciones textuales, permitiendo una amplia gama de movimientos y transformaciones visuales.

  7. Estilización de Video Avanzada: Predice flujo óptico y profundidad antes de alimentar el video al modelo para estilizaciones guiadas por texto.

  8. Generación de Audio: Capaz de generar clips de audio a partir de videos, expandiendo las capacidades multimodales del modelo.

  9. Orientación al Contenido de Formato Corto: Por defecto, genera videos en orientación vertical, ideal para contenidos breves y dinámicos.

  10. Producción de Largometrajes: Muestra su capacidad para generar videos más largos y coherentes, manteniendo la consistencia en la apariencia de objetos a lo largo de múltiples iteraciones.

  11. Edición Interactiva de Videos: Permite la manipulación interactiva y el control de movimientos en videos generados previamente.

  12. Control Preciso del Movimiento de Cámara: Incorpora comandos específicos para movimientos de cámara, como zoom, paneo y tomas de dron, entre otros.

  13. Resultados de Evaluación Positivos: Supera a modelos competidores en fidelidad de texto y generación de movimientos interesantes, según las valoraciones de los usuarios.

  14. Potencial Futuro: Indica un futuro prometedor para los LLMs en la generación de videos, con planes de expandirse a generación "cualquiera-a-cualquiera" como texto-a-audio, audio-a-video y subtitulado de video.

Reinventando la Locomoción Humanoide mediante Aprendizaje por Refuerzo

  • La Universidad de California, Berkeley, ha desarrollado un controlador basado en el aprendizaje para robots humanoides, con potencial para ayudar en fábricas, asistencia a personas mayores y colonización de planetas.

  • Los investigadores han creado un "cerebro" para robots que aprende de las experiencias pasadas para decidir cómo moverse a continuación.

    • El controlador es un Transformer causal que toma como entrada el historial de observaciones y acciones propioceptivas y predice la siguiente acción

  • El robot fue entrenado en un mundo virtual con diferentes tipos de suelos y obstáculos, mediante aprendizaje por refuerzo.

  • Después de entrenar en la simulación, el robot pudo caminar en el mundo real sin problemas, en lugares como parques y aceras.

  • El robot puede caminar en diferentes direcciones, incluso hacia atrás, y girar,

  • Este enfoque condujo a comportamientos emergentes de balanceo dinámico del brazo similares a los humanos en coordinación con los movimientos de la pierna, es decir, una relación contralateral entre los brazos y la pierna.

  • ¿Puede el Robot Adaptarse a Situaciones Nuevas?:

    • Sí, por ejemplo, si se tropieza con un escalón, aprende a levantar más sus piernas la próxima vez.

    • También ajusta su forma de caminar dependiendo del tipo de terreno, como en una pendiente.

    • Los investigadores probaron su estabilidad empujándolo con un palo o lanzándole una pelota de yoga, y el robot fue capaz de mantenerse en pie.

  • GITHUB: https://learning-humanoid-locomotion.github.io/

Las canciones hechas completamente con IA ya están aquí

  • LINK: Suno.ai

  • También disponible como plugin en Microsoft Copilot

2 nuevos modelos de Síntesis coherente y controlable de imagen a vídeo para la animación de personajes

Reflexiones Finales

Por qué la predicción del siguiente token es suficiente para llegar a la AGI - Ilya Sutskever (Científico Jefe de OpenAI)

Volvemos el día 8 de enero. ¡Feliz Navidad!