El generador de imágenes AI también puede producir música (con resultados de otro mundo)
Generadores de imágenes de IA aparentemente puede hacer más que bombear arte profesional. Dos miembros de la banda usan los mismos algoritmos para crear música.
El proyecto, llamado Riffusion, utiliza la generación de texto a imagen de AI para producir espectrogramas, o representaciones visuales de música, que luego se pueden convertir en clips de audio.
AI entrena algoritmos informáticos para reconocer imágenes de objetos y lugares, y los utiliza para reproducir imágenes similares. programas que incluyen DALL-E 2Midjourney y Stable Diffusion son tan buenos para generar imágenes que pueden intentar visualizar cualquier cosa que desee a través de diferentes estilos artísticos, basados en un mensaje de texto simple.
La generación de imágenes inspiró al desarrollador de software Seth Forsgren y al especialista en robótica Hayk Martiros para ver si los mismos programas de inteligencia artificial podían aplicarse al campo del audio. «Hayk y yo tocamos juntos en una banda pequeña y comenzamos el proyecto simplemente porque amamos la música», dijo Forsgren a PCMag. «Ver los impresionantes resultados de Stable Diffusion para la generación de imágenes nos hizo preguntarnos cómo sería usar un enfoque de difusión para crear música».
(Crédito: rifa)
Para averiguarlo, los dos entrenaron el Stable Diffusion de código abierto en imágenes de espectrograma emparejadas con texto. Luego, el programa pudo producir espectrogramas musicales basados en un mensaje dado.
«Al principio no estábamos seguros de si sería posible que la arquitectura del modelo de difusión estable creara una imagen de espectrograma con suficiente fidelidad para convertirla en audio, pero resulta que sí, y más», dice Forgren. «Cada paso en el camino, nos ha impresionado más y más con lo que es posible, y una idea lleva a la siguiente».
(Crédito: rifa)
Forsgren y Martiros publicaron su resultados(Se abre en una nueva ventana) en el sitio web de Riffusion, que se supone que es un proyecto de pasatiempo. Lo más importante es que los visitantes del sitio pueden iniciar sesión sus propias indicaciones de texto(Se abre en una nueva ventana)y Riffusion producirán un espectrograma de su solicitud, que se transmitirá en el sitio como un clip de audio.
Además, el programa puede crear nuevas variaciones del espectrograma mientras escucha. Aquí hay un ejemplo de Riffusion tratando de crear un «evangelio árabe».
Los resultados son sorprendentemente buenos. Disfrutamos de este fragmento de jazz, que se produjo con el mensaje: «línea de bajo funk con un solo de saxo de jazz».
Riffusion también puede intentar reproducir canciones, incluyendo K-Pop o un «Rap de ira a lo Eminem(Se abre en una nueva ventana)‘, menos la letra. En cambio, las pistas presentarán un galimatías melódico con un sonido humano que aún coincide con el tono general de la canción.
Recomendado por nuestros editores
Por ejemplo, a continuación se muestra una «balada de fantasía, voz femenina» que se convierte en una melodía de «estrella del pop adolescente». Para nosotros, la canción resultante suena tanto humana como alienígena.
Forsgren dice que la letra del programa puede sonar «un poco de otro mundo». Otra limitación «es que el modelo aún no está diseñado para comprender la estructura de la canción de nivel superior, como si no estuviera tratando de repetir coros o algo así. Puedes imaginarte construyendo un modelo abstracto sobre este para hacerlo».
Por lo tanto, la tecnología no puede reemplazar completamente la música hecha por el hombre. Pero el proyecto muestra que los algoritmos de imágenes de IA pueden tener un gran potencial desbloqueado para otros fines, incluida la posibilidad de ofrecer algo de inspiración a los creadores de música. Forsgren y Martiros hicieron público Riffusion el jueves, y muchos usuarios ya están revisando su proyecto.
«Estamos viendo una gran cantidad de tráfico en el sitio web: ha sido un esfuerzo abrumador mantener suficientes GPU en funcionamiento para satisfacer todas las demandas, pero estamos teniendo un día divertido», dice Forsgren. Por lo tanto, el sitio de Riffusion puede tener dificultades para procesar su solicitud debido a la carga de tráfico. Sin embargo, los dos también han publicado el código de su proyecto en GitHub(Se abre en una nueva ventana).
¡Recibe nuestras mejores historias!
Regístrese para Qué pasa ahora para recibir nuestras mejores historias en su bandeja de entrada todas las mañanas.
Este boletín puede contener anuncios, ofertas o enlaces de afiliados. Suscribirse a un boletín informativo indica su consentimiento a nuestra condiciones de uso y política de confidencialidad. Puede darse de baja de los boletines en cualquier momento.
«Jugador orgulloso. Gurú del café. Alcoholico galardonado. Entusiasta de la cerveza. Estudiante. Aficionado a los zombis. Lector. Especialista en música. Aficionado a la comida».