Stanford U y el marco de capacitación analítico convexo de Google mejoran la comprensión y la optimización del transformador
Aunque el notable poder y los éxitos de las arquitecturas de transformadores han sido bien documentados por la comunidad de investigación de aprendizaje automático en los últimos años, sigue faltando literatura que proporcione un análisis teórico riguroso de las redes de transformadores e interpretaciones de las funciones aprendidas.
en el nuevo periodico Transformadores convexificados: mejore la optimización y la comprensión de las redes de transformadoresun equipo de investigación de la Universidad de Stanford y Google proporciona un análisis teórico sólido de los mecanismos fundamentales de los transformadores y presenta un nuevo marco de entrenamiento analítico convexo para mejorar su optimización.
El equipo resume sus principales contribuciones de la siguiente manera:
- Proponemos una formulación alternativa al mecanismo estándar de autoatención y estudiamos con ella el problema de la formación regularizada de redes de atención/transformación.
- Convexificamos el problema de entrenamiento regularizado de las redes de atención/transformador con la capa de atención propuesta y, por lo tanto, permitimos encontrar una solución globalmente óptima sin requerir ninguna heurística de optimización no convexa, por ejemplo, normalización de capa y conexiones de salto.
- También aplicamos nuestro marco analítico convexo a varias arquitecturas, por ejemplo, redes con o sin una capa FCN. Por lo tanto, podemos explicar el impacto de cada componente en los modelos aprendidos a lo largo del entrenamiento.
- Revelamos un mecanismo de regularización implícito inducido por nuestro mecanismo de atención. Además, caracterizamos esta regularización como un factor que induce parsimonia entre tokens.
- Demostramos la efectividad de nuestra reformulación convexa a través de varios resultados experimentales. También mostramos que nuestra reformulación atenúa significativamente el fenómeno de grokking estudiado en artículos recientes (Power et al., 2022; Thilak et al., 2022).
El equipo primero propone una alternativa convexa al mecanismo de autoatención del transformador y reformula la formación del modelo como un problema de optimización convexa. La reformulación convexa propuesta ofrece muchas ventajas: permite a los investigadores optimizar globalmente sus parámetros de red sin heurísticas de optimización no convexa, las funciones aprendidas son transparentes e interpretables y proporciona información sobre las estructuras de las funciones resultantes y sus propiedades de generalización.
En sus estudios empíricos, el equipo comparó su enfoque de entrenamiento convexo propuesto con el entrenamiento no convexo estándar en un entorno de estudiante-maestro con un modelo BERT preentrenado y con redes de transformadores estándar con mecanismos de autoatención en conjuntos de datos algorítmicos. Los resultados muestran que el entrenamiento convexo converge a una precisión de generalización perfecta 10 veces más rápido que el entrenamiento no convexo estándar y con pérdidas de prueba significativamente menores.
En general, este trabajo ofrece una visión positiva de los mecanismos ocultos de las redes de transformadores, que el equipo espera que los documentos de seguimiento puedan aprovechar para seguir avanzando en esta importante área de investigación.
El papel Transformadores convexificados: mejore la optimización y la comprensión de las redes de transformadores está sobre arXiv.
Autor: Hécate He | Editor: Michel Sarazen
Sabemos que no quiere perderse ninguna noticia o avance de investigación. Suscríbete a nuestro popular boletín IA global sincronizada semanal para recibir actualizaciones semanales de IA.
«Jugador orgulloso. Gurú del café. Alcoholico galardonado. Entusiasta de la cerveza. Estudiante. Aficionado a los zombis. Lector. Especialista en música. Aficionado a la comida».