Audio Expresivo e Inteligencia Artificial: SaxEx y JIG

Anuncio
Audio Expresivo e Inteligencia Artificial: SaxEx y JIG
Diego Arias Morán
Universidad Carlos III de Madrid
NIA 100077460
[email protected]
SUMARIO
SaxEx es un sistema basado en casos diseñado para generar
interpretaciones expresivas de melodías basándose en ejemplos de
interpretaciones humanas. La resolución mediante CBR es
apropiada ya que se pueden conseguir múltiples casos resueltos o
precedentes, es decir, grabaciones de interpretaciones humanas.
JIG (Jazz Improvistaion Generator) es un sistema capaz de crear
improvisaciones ’formulaicas’ monofónicas en clave de jazz
usando restricciones en combinación con aleatoriedad para
generar los atributos de nota.
Palabras clave
inteligencia artificial, CBR, case based reasoning, audio, SMS,
spectral modelling synthesis, creatividad, expresividad, jazz,
SaxEx
1. INTRODUCCIÓN
1.1. La creatividad
artificial
también
puede
ser
La creatividad es un potencial que se puede entrenar, desarrollar y
evolucionar. No se enseña, sino que se desbloquea. Básicamente,
la creación artificial – como la natural – se compone de dos
procesos computacionales: uno “generador” y otro “evaluador”.
Varias técnicas de Inteligencia Artificial ya han demostrado que
es factible modelizar actividades creativas en muchos campos:
artes (música, literatura), ciencias (física, matemática),
tecnologías (ingeniería, arquitectura), juegos (ajedrez, damas),
etc.
1.1.1. Creatividad humana
Aunque no existe una definición única, se podría decir que la
creatividad es la capacidad de unir, asociar, conectar, integrar o
combinar diferentes ideas ya existentes – y previamente no
relacionadas – de manera no habitual, inesperada, sorpresiva,
impredecible e innovadora, a fin de producir nuevas ideas más
complejas y potentes adaptadas a los nuevos propósitos. No
obstante, es preciso que sean útiles, pertinentes, razonables y/o
viables; es decir, se deben descartar todas aquellas ideas
descabelladas, inalcanzables o absurdas. De allí que la creatividad
es un concepto parcialmente subjetivo y relativo a un contexto
sociocultural: lo que en una cultura puede ser valioso, útil o
beneficioso en otra puede no serlo.
En el caso del ser humano, la creatividad no es algo exclusivo de
algunas personas sino que es inherente a toda la especie. Aunque,
conviene aclarar, no todos son igualmente creativos: algunos lo
son mucho más que otros e incluso unos pocos son
extraordinarios. La creatividad no se enseña sino que se
desbloquea. Si el entorno local (físico y sociocultural) es capaz de
estimular, motivar o alentar, entonces la creatividad florece.
1.1.2. Creatividad, inteligencia e imaginación
La creatividad no necesariamente va aparejada con la inteligencia
(se puede ser mucho más creativo que inteligente y viceversa),
pero depende de ella. También está relacionada con la
imaginación: crear es poner de manifiesto aquello que se imagina.
Por último, depende también del conocimiento y de la
experiencia, aunque si bien es muy útil contar con un bagaje
mínimo, el exceso de conocimientos y de experiencias puede
restringir la creatividad.
Aparentemente para ser creativo son condiciones esenciales la
motivación y la colaboración entre las personas; mientras que son
aspectos importantes o necesarios el aprendizaje y la interacción
con el entorno (físico y social) [1]. En términos generales, las
personas creativas no sólo dependen del proceso cognitivo sino
que también dan importancia a aspectos afectivos de su
personalidad para la solución de los problemas que se les
presenta.
1.1.3. El proceso creativo
El proceso creativo consta, básicamente, de dos etapas: una
generadora y otra evaluadora, que se descomponen, a su vez, en
cuatro “momentos” distintos (dos conscientes, separados por dos
inconscientes):
– Preparación: se selecciona y recolecta la mayor cantidad de
información posible y viable sobre el problema en cuestión,
incluyendo lecturas, indagaciones, averiguaciones, consultas,
etc.
– Incubación: se deja “decantar” el tema. Se trata de un
período de aparente inactividad, pero se produce un
procesamiento subconsciente de la información recolectada.
– Iluminación: se produce el “relámpago creativo”, la
inspiración propiamente dicha, el momento en que “caen
todas las fichas”. La solución surge abrupta y repentinamente
en la mente
– Verificación: es el trabajo de evaluación –racional y
metódica– a fin de determinar la validez objetiva y/o práctica
de la solución obtenida en la etapa de iluminación. De este
modo, la preparación y la incubación corresponden a la etapa
generadora y la iluminación y la verificación a la evaluadora,
respectivamente. Otros autores agregan otros dos “momentos”
más (al inicio y al final del proceso)
– Cuestionamiento: se percibe algo como problema y se
inicia una reflexión profunda a fin de delimitarlo con claridad
– Comunicación: es la tarea de dar a conocer lo nuevo, de
hacer una adecuada difusión de lo creado.
1.1.4. Las características
Las características más comúnmente aceptadas de la
creatividad, en la gran mayoría de las personas, son:
– Fluidez: es la facilidad para generar un elevado número de
ideas. Obviamente cuanto mayor es su número, más
probable resulta encontrar una alternativa o solución útil y
beneficiosa.
– Flexibilidad: es la habilidad para modificar, transformar,
replantear o reinterpretar –de muy diversas formas– ideas,
explorando líneas diferentes.
– Originalidad: es lo que define a la idea como algo único,
nuevo, inusual, novedoso, diferente o inédito. Significa
apartarse de lo obvio, de lo habitual, romper la rutina, dar
un salto desde lo conocido.
– Elaboración: es el nivel de detalle, desarrollo o
complejidad de las ideas creativas.
1.2. Creación artificial
Básicamente, la creación artificial –como la natural– se
compone de dos procesos computacionales: uno “generador”
y otro “evaluador”. En cuanto al primer proceso, es fácil para
la máquina generar muchas de las soluciones posibles a un
determinado problema.
Es así que, en muchas ocasiones y dado que funciona a toda
hora (y durante días), encuentra resultados inesperados,
soluciones originales, que el ser humano posiblemente habría
pasado por alto. Lo que ocurre es que sólo es capaz de
combinar “ideas” previamente conocidas, no puede realizar
asociaciones inéditas, transgredir, “traspasar los límites” o
“romper las reglas” como hacen los grandes creadores.
En cuanto al segundo proceso, es difícil evitar que la máquina
haga cosas inútiles. Por el momento, no posee la capacidad de
evaluar y, por lo tanto, de escoger únicamente la solución más
adecuada. No obstante, se puede implementar un “sistema
creador”, compuesto por una máquina y por un ser humano,
en donde la computadora genere abundante material
recombinado y el hombre la guíe por el camino más
interesante o la máquina efectuara los procesos inferiores de
una obra y el ser humano continuara el trabajo en un nivel
superior.
1.2.1. Diferentes técnicas
Varias técnicas de Inteligencia Artificial que ya han
demostrado su valía para modelizar actividades creativas [2].
Como ya han aparecido en la asignatura, se describen
sintéticamente a continuación [3]:
– Sistemas Expertos:
Emulan artificialmente ciertos aspectos del razonamiento
de un especialista humano en un ámbito restringido y
limitado de conocimiento. Su característica principal es que
se basan en reglas; es decir, contienen un juego predefinido
de conocimientos que se utiliza para tomar sus decisiones.
– Razonamiento Basado en Casos
Aprovecha la experiencia adquirida en el pasado para
resolver el problema actual, a través de su gran base de
conocimientos con ejemplos de casos ya resueltos
(históricos). A la hora de resolver un nuevo caso, el sistema
busca en su memoria y recupera aquel que más se le
asemeje adaptándolo al problema actual. Al incorporar
permanentemente nuevos casos a su memoria, el sistema va
adquiriendo más “experiencia” con el tiempo. Se trata, en
definitiva, de un aprendizaje por analogía.
– Redes Neuronales Artificiales:
Inspiradas en el cerebro humano, están compuestas por una
multitud de procesadores paralelos interconectados, cada
uno de los cuales es capaz de efectuar sólo un pequeño
número de operaciones simples y transmitir sus resultados a
sus vecinas. A las redes neuronales no se les “inculca”
ningún tipo de regla, sino que son capaces de aprender a
reconocer patrones, a partir de un proceso de entrenamiento
basado en el análisis automático y sistemático de una
suficiente cantidad de ejemplos diferentes. Son hábiles para
manipular datos imprecisos, incompletos, con ruidos y
hasta compuestos de ejemplos contradictorios.
– Algoritmos Genéticos
Son métodos adaptativos de búsqueda que se basan en los
mecanismos de evolución biológica. En ellos se codifica
cada una de las posibles soluciones a un problema dado en
forma de cadenas de caracteres de longitud fija llamados
“genes”. Se genera una “población” inicial de prueba, a la
cual se evalúa posteriormente según un criterio de
desempeño fijado con anterioridad (la “función de
adecuación” o fitness). En cada cada ciclo o generación se
eligen las soluciones que más se aproximan al objetivo
buscado, descartando el resto de las soluciones. Las más
aptas se combinan entre sí para producir una descendencia
nuevas soluciones, permitiendo introducir alguna
modificación al azar (una “mutación”) durante la
reproducción. Este ciclo se itera hasta llegar a aquella
considerada aceptable.
– Sistemas Multiagentes
Se componen de un conjunto de entidades relativamente
autónomas e inteligentes que cooperan entre sí para
desarrollar una tarea o resolver un problema (agentes). Se
trata de comunidades de agentes, cuyas propiedades no
pueden derivarse únicamente de las de sus partes
constitutivas..
El Razonamiento Basado en Casos (CBR, Case Based
Reasoning) cuenta con varias aplicaciones completamente
funcionales en el campo del audio, como son:
– Estudio de la similitud melódica (diferentes algoritmos
compitiendo en el Music Information Retrieval Exchange
MIREX [9])
– Transformaciones temporales de grabaciones monofónicas
de audio respetando su expresividad: Tempo-Express.
– Síntesis de audio expresivo mediante SMS por imitación de
un intérprete humano: SaxEx [15].
– Generación de improvisaciones: JIG (Jazz Improvisation
Generator [16], incorporado posteriormente como parte de
SaxEx)
Tempo-Express está desarrollado en la tesis doctoral de M.
Grachten, pero por la extensión de esta queda fuera de nuestro
ámbito. Sí entraremos a examinar tanto SaxEx como JIG, dos
sistemas capaces capaces de generar audio expresivo, cada
uno centrando su “creatividad” en un campo: SaxEx en la
creación de interpretaciones expresivas y JIG en la
composición de nuevas melodías derivadas de temas y
estándares de jazz.
2. EXPRESIVIDAD EN LA EJECUCIÓN
MUSICAL
Cuando un ejecutante interpreta música a partir de una partitura,
el resultado nunca es una reproducción literal y mecánica de la
partitura (la llamada ejecución nominal).
Incluso cuando músicos (expertos) tocan intencionadamente de
una manera mecánica, aparecen diferencias notables con respecto
a la ejecución nominal.
2.1. Factores
La investigación en torno a la ejecución musical data desde al
menos el final del siglo XIX. Repp mostró que los estudiantes de
piano eran tan capaces como los profesionales de producir
repetidamente versiones muy similares de la misma pieza. En
1913, Johnstone observó que en las ejecuciones pianísticas, las
notas pertenecientes a la melodía se tocan de forma habitual
ligeramente adelantadas con respecto a las notas pertenecientes a
acordes en la misma posición métrica.
Actualmente se acepta que la interpretación de una pieza musical
está determinada o influida por varios factores. En primer lugar,
las condiciones físicas del músico y su instrumento, ya que el tipo
de instrumento determina en gran medida el carácter de la
interpretación. Además, las condiciones fisiológicas del intérprete
(como fatiga o estado de salud) pueden jugar un papel. En
segundo lugar, las habilidades motoras de cada persona
determinarán el grado de desviación no intencionada de la
ejecución frente a la partitura. Un músico experimentado controla
mejor su velocidad motora y su exactitud. Un tercer factor son los
aspectos afectivo-cognitivos del músico. Sloboda muestra que los
ejecutantes se desvían sistemáticamente de la partitura cuando
tocan variaciones de la pieza consistente en la misma secuencia de
notas (con sólo su emplazamiento en el compás cambiado. Este
resultado elimina la posibilidad de que las desviaciones sean
debidas a limitaciones motoras humanas. Otros estudios muestran
desviaciones sistemáticas en interpretaciones dotadas de
caracteres o intenciones diferentes.
2.1.1. Recursos interpretativos:
Podemos concluir de los estudios y razonamientos
anteriores que los ejecutantes enriquecen el sonido usando las
siguientes técnicas:
– Desviación en tiempo
– Articulación
– Dinámica
– Modulación (vibrato)
– Ornamentaciones
La señal de audio lleva, por tanto, una gran cantidad de
información acerca de la expresividad, que deberíamos ser
capaces de sintetizar en un conjunto de descriptores de alto nivel.
2.2. Transformación temporal expresiva
Se ha discutido si los aspectos temporales de la interpretación se
escalan uniformemente cuando el tempo cambia [6], esto es, si las
duraciones de todas las notas producidas mantienen sus
proporciones relativas. Esta hipótesis es denominada la
invariancia relacional (de la duración bajo cambios de tempo). Se
han hallado discrepancias con esta teoría [Desain and Honing,
1994; Friberg and Sundström, 2002; Timmers et al., 2002], y un
reciente estudio muestra que los oyentes son capaces de
determinar cuando grabaciones de jazz y música clásica han sido
uniformemente comprimidas en tempo a partir solamente a partir
de aspectos expresivos de las interpretaciones. [Honing, 2006].
De hecho es posible revelar cómo el contenido expresivo de las
piezas varía con el tempo. La gráfica muestra la frecuencia de
aparición de varios tipos de recursos expresivos, como
ornamentación y consolidación, como una función del tempo
nominal de las interpretaciones (el tempo anotado en la partitura),
entendido como eventos discretos más que como aspectos
numéricos continuos como la temporización o las desviaciones
dinámicas
.
Figura 1 Frecuencia relativa de eventos en función del tempo
Según la figura, la ornamentación, por ejemplo, muestra un
descenso muy acusado con el incremento del tempo. La
frecuencia de aparición de cierto tipo de eventos interpretativos,
especialmente de la consolidación, crece con el tempo.
La siguiente gráfica muestra cómo varían sistemáticamente varios
parámetros expresivos comparando diferentes interpretaciones de
la misma frase con diferentes tempos (medidos en pulsos o
“tiempos” por minuto, BPM). El eje x muestra las diferencias de
tempo entre las dos interpretaciones. En la figura superior
izquierda, el eje y muestra el valor eficaz (RMS) de la diferencia
absoluta en el comienzo (onset) de nota. La figura superior
izquierda muestra el valor eficaz de la diferencia de duración
entre pares de notas, la inferior izquierda el valor de la diferencia
de energía y la inferior derecha muestra la distancia entre
interpretaciones, consideradas como dos secuencias de eventos
interpretativos. La distancia aumenta en esta última cuando las
secuencias contienen diferentes elementos.
En las cuatro gráficas las diferencias se incrementan conforme
aumenta el tempo al que se interpreta la frase. En algunos
parámetros el cambio puede parecer pequeño pero hay que tener
en cuenta que el impacto real de las interpretaciones viene dado
por la combinación de todos los parámetros. Los efectos en los
parámetros individuales son acumulativos.
Figura 2 Diferencias entre ejecuciones (de la misma frase) frente a su diferencia de tempo
Las anteriores observaciones apoyan la idea de que algunas
circunstancias la invariancia relacional puede transmitir ciertos
aspectos de la expresividad, en general no se puede asumir que
todos los aspectos expresivos se transformen de manera lineal o
permanezcan constantes cuando el tempo de la interpretación
cambia. En otras palabras, la transformación temporal de música
involucra más técnicas que el uniform time stretching (UTS).
Este concepto será usado en SaxEx para permitir aplicar ataques,
variaciones de dinámica u otros parámetros de expresividad
extraídos de la base de casos a otras melodías con diferente
tempo.
2.3. Análisis: Descripción de Contenidos
Para preparar los casos, así como el problema, se debe llevar a
cabo un análisis musical sobre la partitura del tema. Los
resultados se usarán en el proceso de solución del problema, por
ejemplo para segmentar frases en grupos más pequeños de notas y
para llevar a cabo la recuperación de casos. Una descripcióna
nivel de nota (como MIDI) no es suficiente, ya que solo permite
un modelizado limitado de la expresividad (desviaciones en
tiempo, inserción de notas…). Mucha de la expresividad se haya a
nivel de intra-nota (vibrato, articulación) y otra se haya colocada
por encima, a un nivel de motivo (dinámicas).
2.4. El Modelo de Implicación/Realización
Narmour ha propuesto una teoría de la percepción y la cognición
de melodías, el Modelo de Implicación/Realización o modelo I/R.
De acuerdo con esta teoría, la percepción de una melodía genera
continuamente previsiones en los oyentes acerca de cómo
continuará la melodía. La fuente de estas previsiones es doble,
siendo tanto innatas como adquiridas. Los factores innatos son
procesos predefinidos en nuestro cerebro y nuestro sistema
periférico, mientras que los aprendidos se debe a la exposición a
la música como un fenómeno cultural y la familiaridad con
determinados estilos de música. Igual que en la teoría Gestalt de
la visión, los elementos individuales se combinan para formar
unidades percibidas como un todo (“gestalt”). El agrupamienmto
sigue los principios de proximidad (perceptual), similitud y
continuación (es decir, los elementos aparecen como una sucesión
natural).
Narmour, siguiendo con la analogía, indica que esperamos oír,
después de cierto intervalos, una determinada nota con más
probabilidad que otras. Hay dos principios básico que regulan este
comportamiento:
– Dirección registral
– Diferencia interválica
La dirección registral supone que un pequeño intervalo
ascendente hace esperar otro intervalo ascendente (análogamente
para intervalos descendentes), e intervalos grandes implican
cambios en la dirección registral. La diferencia interválica supone
que un intervalo menor de 5 semitonos implica un intervalo
posterior de tamaño similar (hasta dos semitonos mayor o menor)
y un intervalo mayor implica un intervalo subsiguiente menor.
perceptual con el sonido original cuando no se realizan
transformaciones. Su aproximación particular al análisis espectral
es la descomposición del sonido en sinusoides más un residuo
espectral [17]. El proceso puede se automático o controlado por el
usuario dependiendo de las características del sonido.
Basándonos en estos principios, los patrones melódicos pueden
respetar o violar las implicaciones. Los patrones son denominados
estructuras y se etiquetan de acuerdo a sus características
registrales e interválicas.
Figura 3 Estructuras básicas del modelo I/R y primeros
compases de “All of Me” anotado con estructuras I/R.
Se pueden diseñar algoritmos que clasifiquen las estructuras
presentes en una melodía según sus análisis I/R, por ejemplo para
integrar archivos de audio de interpretaciones reales en nuestra
base de casos. Se pueden usar mecanismo estandarizados con el
fin de acoplarse a la norma MPEG-7, guardando los datos en
formato XML.
3. SaxEx: CBR para la generación
interpretaciones musicales expresivas.
de
El principal obstáculo para generar automáticamente
interpretaciones musicales expresivas es que los intérpretes
humanos usan conocimientos musicales que no están
explícitamente indicados en la partitura. Además, estos
conocimientos son difíciles de verbalizar y por tanto las
implementaciones con IA basadas en representaciones
declarativas de conocimiento tienen serias limitaciones. Una
aproximación alternativa es el uso directo de estos
conocimientos implícitos en grabaciones de interpretaciones
humanas.
Trabajos previos habían intentado resolver el problema
principalmente por medio de instrumentos MIDI con sus
inevitables limitaciones, sobre todo en materia de expresividad.
SaxEx es un sistema basado en casos diseñado para generar
interpretaciones expresivas de melodías basándose en ejemplos de
interpretaciones humanas. La resolución mediante CBR es
apropiada ya que se pueden conseguir múltiples casos resueltos o
precedentes, es decir, grabaciones de interpretaciones humanas.
3.1. Análisis y resíntesis: SMS
Las técnicas de análisis y síntesis basadas en modelos espectrales
como SMS (Spectral Modeling Synthesis) son útiles para extraer
parámetros de alto nivel de sonidos reales, para transformarlos y
para la síntesis de una versión modificada del original. La
finalidad de SMS es obtener una representación del sonido
general y musicalmente significativa, a partir de la cual podemos
manipular parámetros musicales manteniendo la identidad
Figura 4 GUI de SMS .
La ventana superior muestra la forma de onda del sonido de
entrada, la central muestra la evolución en frecuencia de los
parciales, y la inferior contiene el residuo espectral.
De la representación senoidal y residual podemos extraer
parámetros de alto nivel cuando el sonido es una nota o una frase
monofónica de un instrumento. SaxEx usa SMS para obtener
información básica relacionada con varios parámetros de
expresividad como dinámica, rubato, vibrato y articulación a
partir de datos de tiempos de ataque y de caída, estructura de
formantes o amplitud y altura medias. Todos estos parámetros se
pueden modificar y añadir a la representación espectral sin
ninguna pérdida de calidad sonora. El análisis SMS se comporta
como un preproceso para extraer los parámetros musicales de alto
nivel, mientras que la síntesis SMS añade las transformaciones
especificadas por el sistema CBR al sonido original, lo que
permite a SaxEx generar nuevas interpretaciones expresivas
(nuevos archivos de sonido).
3.1.1. Modelado de conocimientos musicales
SaxEx incorpora como base conocimientos musicales construidos
sobre el modelo de implicación/realización de Narmour y la teoría
generativa de la música tonal (GTTM) de Lerdahl y Jackendoff.
Estas teorías de percepción y entendimiento musical son las bases
del modelo computacional de conocimiento musical del sistema.
3.1.2. Implementación
La parte cognitiva está implementada en Noos, un lenguaje de
representación reflectivo orientado a objetos, diseñado para
soportar el modelado de conocimiento para la resolución de
problemas y el aprendizaje. Este lenguaje está implementado en
Common Lisp y puede funcionar en diversas plataformas, siendo
la Macintosh plataforma principal de desarrollo, a través de un
entorno gráfico de ventanas.
Modelar un problema en Noos requiere especificar tres tipos
diferentes de conocimiento:
– de dominio
– de resolución de problemas
– de metanivel
Figura 5 Parte de la partitura de “All of Me” representada en Noos
El conocimiento de dominio especifica un conjunto de
conceptos, relaciones entre conceptos y datos del problema
relevantes para una determinada aplicación, quedando definida
la ontología de dominio. En este caso, la ontología de dominio
está compuesta por notas, acordes, estructuras de
implicación/realización y parámetros expresivos. Los datos de
problema definen situaciones específicas que tienen que ser
resueltas (por ejemplo frases en concreto que deben ser
transformadas). Noos está basado en feature terms (términos
característicos), que corresponden a estructuras similares a
registros agrupando una colección de características. Esto
genera una representación de partitura como la de la figura, a
partir de los parámetros usados en el modelado.
sistema infiere una serie de posible transformaciones expresivas
para una pieza dada. Finalmente, usando la síntesis SMS y el
set de transformaciones inferidas, SaxEx genera nuevas
interpretaciones expresivas de los mismos estándares de jazz y
también de otras melodías de similar carácter no presentes en el
grupo de casos (base de conocimientos) original.
SaxEx ha sido desarrollado especificando dos tipos diferentes
de conocimiento:
– modelado de conceptos y estructuras relevantes para
representar el conocimiento musical
– desarrollo de un método de resolución para hallar la
secuencia de transformaciones expresivas necesaria
para una frase musical dada.
El conocimiento de resolución de problemas especifica el
conjunto de tareas a resolver en una aplicación (la secuencia de
transformaciones en este caso). Los métodos modelan los
modos de resolver las tareas. Éstos a su vez pueden ser
elementales o estar divididos en subtareas. Para una sola tarea
puede haber múltiples métodos capaces de llevarla a cabo.
El conocimiento reflectivo o de metanivel son datos acerca de
los dos dominios de conocimiento anteriores. Se puede usar
como criterio en la selección de los métodos para una tarea
específica.
Una vez que un problema (tarea) es resuelto, Noos lo almacena
e indexa, siendo esta característica lo que lo hace adecuado para
los sistemas de aprendizaje no supervisado y específicamente,
para los sistemas de razonamiento basado en casos.
3.1.3. Proceso
El estudio de la expresión musical en SaxEx se centra
en el contexto de las interpretaciones de saxofón tenor.
Basándose en varias grabaciones de un ejecutante de saxo
tocando estándares de jazz con diferentes grados de
expresividad, incluida una versión (casi) inexpresiva de cada
pieza. Estas grabaciones son analizadas usando las técnicas de
modelado espectral SMS con el fin de extraer información
básica relacionada con los parámetros expresivos.
El conjunto de parámetros extraídos junto con las partituras de
las piezas constituye el grupo de casos que conforma los
sistemas CBR. Con este set de casos y usando criterios de
similitud basados en los conocimientos musicales de base, el
Figura 6 Diagrama de bloques de SaxEx
3.1.4. El Razonador Basado en Casos
El método de resolución desarrollado sigue la descomposición
en subtareas de los métodos CBR: recuperar (retrieve), adaptar
(reuse/adapt), e incorporar (retain/incorporate):
­
Si se comparan ambas versiones, se podrá comprobar
cambios en la distribución temporal de algunas notas,
crescendo en las melodías ascendentes y decrescendo en
notas largas, uso del vibrato y cambios en la articulación,
que pasa a ser más marcada.
Retrieve: Elección del conjunto de notas (casos) más
similares al problema actual. Esta tarea es descompuesta
en tres subtareas:
· Identify: construcción de patrones de recuperación
usando dos criterios alternativos: estructuras de
implicación/realización de Narmour o importancia
métrica (dada por GTTM) de las notas.
·
Search: búsqueda de casos en la memoria de Noos
usando sus métodos de recuperación y patrones
previamente construidos.
· Select: clasificar por rango los casos recuperados
usando los métodos preferentes de Noos, que usan
criterios como similitud en la duración de las notas,
estabilidad armónica o direcciones melódicas.
­
­
Reuse/Adapt: Elección de transformaciones expresivas a
ser aplicadas en el problema actual entre las del conjuntos
de casos similares. El criterio usado privilegia las opciones
con mayor grado de similitud.
Retain/Incorporate: Incorporación del nuevo problema
resuelto a la memoria de casos, realizada de forma
automática en Noos. Todos los problemas resueltos estarán
disponibles para futuros procesos de razonamiento.
Figura 8 Autumm Leaves y All of Me
3.2. Conclusiones
Existe bastante literatura sobre descripción de la
expresividad natural a partir de interfaces similares a MIDI:
– Widmer et al., reglas para interpretación expresiva en
piano.
– Dillon, Camurri et al., reconocimiento de estados
anímicos
– Bressin et al., reglas y ANN para interpretación
automática
– Desain
&
Honing,
correspondencia
partiturainterpretación
– Gómez et al., transformaciones expresivas de tempo en
interpretaciones de jazz
– Ramirez et al., reglas para la predicción de la
expresividad en interpretaciones de jazz
También se ha llevado a cabo trabajo sobre el modelado
tímbrico de sonidos aislados (Jenssen, K) como factor de
expresividad. Sin embargo trabajos anteriores sobre el
análisis y síntesis de expresión musical sólo habían
abordado el estudio de parámetros como ritmo y vibrato,
Figura 7 Descomposición de tareas CBR de SaxEx
3.1.5. Dos (pequeños) ejemplos
Como ejemplo, podemos escuchar las transformaciones
introducidas en dos fragmentos, uno de “Autumn Leaves” y
otro de “All of Me”, obtenidas a partir del análisis de las
interpretaciones expresivas de otras piezas y la aplicación a
otras piezas distintas. En concreto, se trabajó sobre tres
interpretaciones expresivas de piezas conteniendo cerca de
cincuenta notas con el fin de generar ejecuciones expresivas de
unas veinte notas.
El uso en Noos de perspectivas permitió al sistema identificar
situaciones como notas largas, melodías ascendentes y
descendentes, etc. que también son usadas como referencias (de
dinámica por ejemplo) por intérpretes humanos.
Los ejemplos sonoros de interpretación inexpresiva y de
transformación expresiva se adjuntan con este documento.
Widmer es el único que previamente había intentado
generar música expresiva basándose en ejemplos, aunque
mediante un método basado en descripciones para el
aprendizaje de dinámicas y rubato en un contexto MIDI,
usando un piano electrónico. En SaxEx se manejan con
muchos parámetros expresivos adicionales en el contexto de
un instrumento más rico expresivamente. Los resultados
obtenidos se asemejan a una interpretación humana en
parámetros como rubato, vibrato y dinámicas, aunque las
articulaciones requieren un mayor grado de atención.
4. JIG Generador de Improvisaciones Jazz
JIG genera improvisaciones ’formulaicas’ monofónicas en
clave de jazz usando restricciones en combinación con
aleatoriedad (condicionada por probabilidad) para generar los
atributos de nota. De esta manera, numerosas improvisaciones
se pueden generar a partir de una sola pieza. JIG ha sido
incorporado en SaxEx, que se encarga de modificar los atributos
expresivos de la nota, como dinámica y articulación. Por tanto,
JIG sólo necesita generar los atributos de duración y altura a
partir del tema de la pieza y su armonización.
Las improvisaciones supuestamente deben cumplir estas tres
grandes restricciones:
– Tonalidad: la improvisación debe ser tonal respecto
al resto de la música y por tanto predominantemente
consonante.
– Continuidad: el contorno melódico de la
improvisación debe ser mayormente suave; los
intervalos grandes se usarán ocasionalmente y la
dirección de registro no será frecuentemente variada.
– Estructura: la improvisación no debería ser
meramente una secuencia de notas no relacionadas;
de alguna manera, se debería poder identificar grupos
interrelacionados de notas
Las dos primeras restricciones son relativamente sencillas de
satisfacer, usando el contexto local. La estructura requiere una
elaboración mas detenida, y la improvisación puede tomar
distintas formas en función de la estructura elegida. Un tipo de
improvisación reconocida en el jazz es la llamada “formulaica”,
es decir la construida mediante el uso de fórmulas (pequeños
fragmentos melódicos tambén llamados motivos). Las fórmulas
pueden provenir del repertorio personal o del tema. No deben
aparecer literalmente, sino que deben ser transformadas para
ajustarse al contexto y pueden unirse mediante secuencias de
notas de transición, o melódicas.
Para derivar la altura final del pitch-type se tienen en cuenta 3
factores:
– Altura de la anterior nota
– Dirección melódica (deseada) o armónica del
siguiente acorde.
– Valor medio del intervalo entre las últimas notas
Como podemos ver en la figura la altura se elegiría entre
una serie de valores:
Figura 11 Probabilidad de elección de nota
4.2. Conclusiones
4.1. Proceso
El proceso para generar cada tipo de notas será diferente, y se
elegirá uno u otro en cada momento según una distribución
estadística a flta de desarrollar un métiodo más preciso.
Para la generación de motivos, si se dispone de un análisis de la
pieza según el modeo de Narmour, será más fácil identificarlos
ya que cada una de las secuencias lleva aparejado un carácter
conclusivo o no conclusivo que determinan la posible
funcionalidad de un grupo de notas como motivo.
Las improvisaciones generadas por JIG cumplen
el requisito de tonalidad con bastante facilidad, aunque a
veces la selección de escala basándose tan sólo en lo
acordes usados en ese momento produce elecciones
extrañas en los fragmentos entre motivos. La condición de
estructura quizás sea la menos evidente, ya que está no está
formalmente demasiado clara.
A modo de ejemplo, esta es una improvisación generada
por JIG sobre “Autumn Leaves”. El uso del principio del
tema como motivo es bastante claro.
Figura 12 Improvisación sobre “Autumn Leaves”
En la presentación se incluye una improvisación corta
creada con JIG y SaxEx.
Figura 9 Proceso de generación melódico
En el proceso melódico, la duración es generada antes que la
altura, debido a la relativamente más restringida gama de
alturas. Una vez que se ha determinado una duración, el
contexto es suficientemente específico como para generar un
pitch-type, del que se deriva la altura real del sonido.
El proceso de motivos usa fragmentos preexistentes para
generar no un solo valor, sino la entonación general del motivo.
El proceso es similar al melódico:
Figura 10 Proceso de generación de motivos
Otros ejemplos interesantes de programas creativos son el
sistema informático desarrollado por Roger Dannenberg
capaz de generar en tiempo real toda la sección rítmica de
acompañamiento de un solista interpretando blues; o
NeurSwing de Dennis Baggi que también genera la sección
rítmica para un solista improvisando jazz.
5. REFERENCIAS
[1] Langen, Pieter van; Wijngaards, Niek y Brazier,
Frances (2004): Towards Designing Creative Artificial
Systems. AI EDAM (Engineering Design, Analysis and
Manufacturing), Special Issue on Learning and Creativity in
Design, vol. 18, N° 4, p. 217-225
www.iids.org/publications/AIEDAM04_Creativity.pdf
[2] López de Mántaras, Ramón (2000): Inteligencia
artificial y creatividad. Mecad, número 3, marzo.
Barcelona.
http://www.mecad.org/e-journal/archivo/numero3/art1.htm
[3] Moriello, Sergio (2005): Inteligencia Natural y
Sintética. Buenos Aires, Editorial Nueva Librería.
[4] Pease, Alison; Winterstein, Daniel y Colton, Simon
(2001): Evaluating machine creativity. Proc. ICCBR 2001
Workshop on Creative Systems: Approaches to Creativity
in Artificial Intelligence and Cognitive Science (Bento, C.,
& Cardoso. A., Eds.).
http://homepages.inf.ed.ac.uk/s9904767/papers/iccbr01.pdf
[5] Saunders, Rob y Gero, John (2001): Artificial
Creativity: Emergent Notions of Creativity in Artificial
Societies of Curious Agents.
http://www.vf.utwente.nl/%7Ehmiproj6/AL/SaundersGero2
001SecondIteration.pdf
[6] Repp, B. H. (1995): Quantitative effects of global
tempo on expressive timing in music performance: Some
perceptual evidence. Music Perception, 13: p.39–58.
[7] Juslin, P. N.; Friberg, A. y Bresin, R. (2002). Toward
a computational model of expression in music performance:
The GERM model. Musicae Scientiae, Special Issue 20012002,
63-122.
http://www.psyk.uu.se/hemsidor/musicpsy/abstracts.html#C
omp_mod
[8] Dillon, Roberto: Extracting audio cues in real time to
understand musical expressiveness. Laboratory of Musical
Informatics – University of Genoa.
[9] Gómez, Emilia; Grachten, Maarten; Amatriain, Xavier
y Arcos, Josep Lluís (2003): Melodic Characterization Of
Monophonic Recordings For Expressive Tempo
Transformations.
Proc. Stockholm Music Acoustics
Conference, August 6-9, (SMAC 03), Stockholm, Sweden.
[10] Grachten, Maarten; Arcos, Josep Lluís (2004). Music
Performance Generation as Time Series Prediction. Proc.
ECCBR 2004 Workshops: p. 329-336. UCM, Madrid.
http://www.iiia.csic.es/langes/publication_detail.php?pub_id=918i
[11] Hazan Amaury; Ramirez Rafael y Grachten, Maarten
(2006): Evolving Performance Models by Performance
Similarity: Beyond Note-to-note Transformations. Music
Technology Group, (UPF) - Artificial Intelligence Research
Institute (IIIA - CSIC), Barcelona, Spain.
[12] Arcos, Josep Lluís; Cañamero, Dolores y López de
Mántaras (1998): Affect-Driven Generation of Expressive
Musical Performances. IIIA, Artificial Intelligence
Research Institute, Spanish Council for Scientific Research
CSIC, UAB, Bellaterra, Spain.
[13] Arcos, Josep Lluís; Cañamero, Dolores y López de
Mántaras (1998): Combining AI Techniques to Perform
Expressive Music by Imitation. Artificial Intelligence
Research Institute, IIIA; Spanish Council for Scientific
Research, CSIC, Campus UAB, Bellaterra, Spain.
[14] Arcos, Josep Lluís(1998): Saxex, A Case-Based
Reasoning system for generating expressive performances
http://www.iiia.csic.es/Projects/music/Saxex.html
[15] Arcos, Josep Lluís; López de Mántaras y Serra,
Xavier(1998): SaxEx: a case based reasoning system for
generating expressive musical performances. Artificial
Intelligence Research Institute, IIIA Spanish Council for
Scientific Research, CSIC, Campus UAB, Bellaterra – IUA
Audiovisual Institut Pompeu Fabra University, Barcelona,
Spain.
[16] Grachten, Maarten (2004): JIG: Jazz Improvisation
Generator. Artificial Intelligence Research Institute, IIIA
Spanish Council for Scientific Research, CSIC, Campus
UAB, Bellaterra, Spain.
[17] Serra, X. (1997). Musical sound modeling with
sinusoids plus noise. In Roads, C., Pope,S. T., Picialli, A.,
and De Poli, G., editors, Musical Signal Processing, pages
91–122. Swets and Zeitlinger Publishers.
Descargar