Investigadores de Microsoft presentan reprompting: un algoritmo de muestreo iterativo que encuentra recetas de Chain of Thought (CoT) para una tarea determinada sin intervención humana
En los últimos tiempos, los modelos de lenguaje extenso (LLM, por sus siglas en inglés) han evolucionado y transformado el procesamiento del lenguaje natural con sus técnicas de incitación en unas pocas tomas. Estos modelos han ampliado su usabilidad en casi todas las áreas, que van desde la traducción automática, la comprensión del lenguaje natural, la finalización de texto, el análisis de sentimientos, el reconocimiento de voz y más. Con el enfoque rápido, los LLM reciben algunos ejemplos de una tarea en particular, junto con instrucciones en lenguaje natural, y los utilizan; son capaces de adaptarse y aprender a realizar la tarea correctamente. Las tareas que requieren pasos iterativos y la propagación de restricciones vienen con muchas limitaciones cuando se utilizan estas técnicas de incentivos, para las cuales se ha introducido un nuevo enfoque.
Un equipo de investigadores de Microsoft Research, Redmond, EE. UU., presentó recientemente un nuevo método llamado Reprompting, que aborda todas las limitaciones que vienen con las técnicas de solicitud. Este enfoque busca automáticamente mensajes de Cadena de pensamiento (CoT) útiles y efectivos. Fomentar la cadena de pensamiento ayuda a mejorar la capacidad de razonamiento de los modelos de lenguaje grandes y les ayuda a realizar tareas de razonamiento complejas. Para esto, se proporcionan algunas cadenas de demostraciones de pensamiento como ejemplos durante el aviso. La reformulación encuentra indicaciones de CoT de manera muy eficiente sin ninguna intervención humana.
Los investigadores utilizaron un enfoque de muestreo iterativo conocido como muestreo de Gibbs en el algoritmo de repetición. Él define el problema como el muestreo de una distribución conjunta de recetas CoT. Dado que la distribución es difícil de caracterizar directamente, se utilizó el muestreo de Gibbs como método de aproximación. Este método de muestreo ayuda a determinar las mejores instrucciones probando diferentes instrucciones y decidiendo cuál funciona mejor.
El algoritmo de reactivación comienza con el muestreo de las recetas de CoT iniciales utilizando un indicador de activación cero, en el que no se proporciona información de indicador. El indicador Zero-shot permite que un LLM genere respuestas de tareas sin capacitación previa. Luego, el algoritmo muestra de forma iterativa nuevas recetas usando soluciones previamente muestreadas como avisos principales, y estas nuevas recetas se usan para resolver otros problemas de entrenamiento, con el objetivo de encontrar un conjunto de avisos que compartan avisos.
El algoritmo se evaluó en las cinco tareas Big-Bench Hard (BBH) que requieren un razonamiento de varios pasos. BBH se enfoca en tareas que se cree que están más allá de las capacidades y potenciales de los modelos lingüísticos actuales. ChatGPT e InstructGPT se utilizaron como LLM para la evaluación de algoritmos. Cuando se evaluó, se encontró que la reactivación funcionaba mejor que las técnicas de incentivos CdT de cero disparos, pocos disparos y escritas por humanos.
La reformulación también mostró un potencial significativo en la combinación de modelos usando diferentes LLM para inicializar y probar nuevas recetas. Esto puede ayudar en la transferencia de conocimiento de un modelo más fuerte a un modelo más débil, lo que resulta en un desempeño significativamente mejor que muestra el modelo más débil. La reformulación superó el indicador CoT escrito por humanos en las tareas de BBH hasta en 17 puntos. Los investigadores mencionaron que las recetas de CoT que funcionan bien en un modelo pueden no funcionar bien en otro, destacando la necesidad de optimizar CoT para que cada modelo tenga comparaciones más justas.
En resumen, el algoritmo de repetición de solicitudes es un excelente enfoque automatizado para encontrar solicitudes de CoT eficientes para LLM sin intervención humana. Este es un enfoque valioso para abordar las limitaciones de los métodos existentes y lograr un rendimiento superior en tareas que requieren un razonamiento de varios pasos.
Controlar Papel. No olvides unirte nuestro 21k+ ML SubReddit, Canal de discordia, Y Correo electrónico, donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos perdimos algo, no dude en enviarnos un correo electrónico a [email protected]
🚀 Descubre 100 herramientas de IA en AI Tools Club
Tanya Malhotra es estudiante de último año en la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa un BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con buen pensamiento analítico y crítico, así como un gran interés en aprender nuevas habilidades, liderar grupos y administrar el trabajo de manera organizada.
«Jugador orgulloso. Gurú del café. Alcoholico galardonado. Entusiasta de la cerveza. Estudiante. Aficionado a los zombis. Lector. Especialista en música. Aficionado a la comida».