lOMoARcPSD|2193028 Examen 10 Octubre 2013, preguntas y respuestas Fundamentos de computadores (Universidad Complutense Madrid) StudeerSnel wordt niet gesponsord of ondersteund door een hogeschool of universiteit Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 FUNDAMENTOS DE COMPUTADORES 18 de junio de 2013. Examen parcial del 2º cuatrimestre. Nombre____________________________________________________________________________DNI_____________________________ Apellidos_____________________________________________________________________________________________Grupo________ Ejercicio 1 (3 puntos). Supongamos que definimos que un número natural es “bonito” si es menor que cien mil y además su valor puede obtenerse como una suma de números naturales de la forma 1+2+3+4+5+… Se pide: a) (1,5 puntos) Escribir un programa en lenguaje ensamblador del ARM tal que dado un número natural N decida si es o no bonito. El programa escribirá en la variable B un 1 si el número es bonito y un 0 en caso contrario. b) (1,5 puntos) Convertir el código anterior en una subrutina que reciba como entrada un número natural N y devuelva como salida un 1 si el número N es bonito y un 0 si no lo es. Escribir un programa en lenguaje ensamblador del ARM que llame a la subrutina, y tal que dado un vector A de M números naturales sea capaz de hallar cuántos números bonitos hay en el vector. El programa debe almacenar la cantidad de números bonitos hallada en la variable “cuenta_bonitos”. Nota: Se debe respetar el convenio del ARM visto en clase para llamadas a subrutinas. Además, en ambos apartados se deben incluir las directivas para reservar memoria y declarar las secciones (.data, .bss y .text) correspondientes. Ejercicio 2 (3 puntos). Se desea añadir al procesador multiciclo la instrucción movz, de tipo R: movz rd, rs, rt # si (BR[rt]==0) entonces BR[rd]BR[rs] Se pide: a) (1 punto) Completar la ruta de datos de la figura con los elementos que faltan para que se puedan ejecutar las instrucciones del procesador MIPS estudiadas en clase, incluyendo además los cambios que tendrían que realizarse para poder ejecutar esta instrucción. b) (1 punto) Añadir los estados necesarios a la máquina de estados (ver figura siguiente) para poder implementar el control de esta instrucción. c) (1 punto) Indicar los valores que van tomando todos los registros implicados en la ejecución de la instrucción MOVZ R1, R2, R3. El código de operación de la función MOVZ es 000000 y el valor de los campos SHAMT y FUNCT son 00000 y 100110, respectivamente. El estado actual de la máquina es: R1=0x00000017 R2=0x00110011 R3=0x00000000 PC=0x00003400 Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 Ejercicio 3 (3 puntos). Sea un computador con una memoria principal de 1MB, con una memoria cache de emplazamiento directo de 1KB con bloques de 128 bytes. La memoria es direccionable por bytes y el tamaño de palabra es de 4 bytes. Se pide: a) (0,5 puntos) Indicar el formato de la dirección para MP y para MC. b) (1 punto) En un momento dado sólo cuatro de las entradas de la cache contienen datos válidos, los contenidos del array de etiquetas de la cache (en hexadecimal) son los indicados en tabla inferior. Expresar en hexadecimal el rango de direcciones de memoria principal ubicadas en la memoria cache. Bloque de MC 0 1 2 3 4 5 6 7 Etiqueta 0x3A7 0x100 0x100 0x0D2 c) (1,5 puntos) Partiendo de la situación indicada en la tabla anterior, supongamos que un programa realiza la siguiente cadena de referencias en lectura (en hexadecimal): todas las palabras entre E9C38 y E9D7C ambos incluidos, todas las palabras entre las direcciones 4019C y 402AC, ambas incluidas, y todas las palabras entre las direcciones 34A84 y 34BC0, ambas incluidas. Indicar en cada caso los fallos que se producen e indicar cómo se queda el array de etiquetas de la memoria cache después de acceder a la última dirección. Ejercicio 4 (1 punto). El siguiente código en lenguaje ensamblador del ARM puede usarse para generar un retardo que permita la eliminación de rebotes en un pulsador, tal como hemos hecho por ejemplo en el laboratorio. bReb: finR: LDR R2,=200000 MOV R3,#0 CMP R3,R2 BEQ finR MUL R1,R0,R1 ADD R3,R3,#1 B bReb (salida del bucle, continua el programa) a) (0,75 puntos) Si sabemos que la frecuencia de reloj del ARM es de 66 MHz y hemos medido que desde que se produce la entrada en el bucle hasta que se produce la salida transcurren 2 décimas de segundo ¿cuál ha sido el valor de CPI en la ejecución del bucle? b) (0,25 puntos) Si en las mismas condiciones aumentamos la frecuencia del reloj hasta 100 MHz ¿cuánto tiempo transcurrirá desde que se entra en el bucle hasta que se sale? Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 FUNDAMENTOS DE COMPUTADORES 18 de junio de 2014. Examen parcial del 2º cuatrimestre. Nombre__________________________________________________________DNI___________________________ __ Apellidos_________________________________________________________________________Grupo________ Ejercicio 1 (2.5 puntos) Para el computador MIPS estudiado en clase, responder a las siguientes preguntas: a) (0.5 puntos) Qué instrucción/es, del repertorio de instrucciones del procesador MIPS estudiado en clase, se ven afectada/s y no se podrían ejecutar si se elimina de la ruta de datos el registro MDR, la entrada 1 del Mux que selecciona el dato que se escribe en el banco de registros, y por lo tanto dicho Multiplexor. b) (0.75 puntos) Partiendo de la ruta de datos completa del MIPS, se desea añadir una nueva instrucción Store con Direccionamiento Absoluto (SMDA). Se añade para ello un nuevo formato de instrucción con los siguientes campos (Op, Rs, dirección): El comportamiento de la instrucción SMDA sería el siguiente: SMDA Rs, dirección Mem[ExtCeros(dirección)] BR[rs] donde ExtCeros(dirección) extiende la dirección de 21 bits a 32 bits añadiendo ceros por la izquierda. Añade a la ruta de datos los cambios que tendrían que realizarse para poder ejecutar esta instrucción. c) (0.5 puntos) Añade los cambios necesarios en el diagrama de transición de estados del controlador para poder ejecutar correctamente esta nueva instrucción. d) (0.75 puntos) Indicar los cambios necesarios en la tabla de verdad del controlador (añadir las filas y columnas necesarias). Ejercicio 2 (3 puntos) Sea un computador con un procesador ARMv4. EL procesador cuenta con una memoria cache de emplazamiento directo de 256 bytes con bloques de 64 bytes, unificada para datos e instrucciones (se almacenan en la misma cache los bloques de instrucciones accedidos en la etapa FETCH y los bloques de datos accedidos durante las etapas que hacen acceso a memoria en las instrucciones ldr y str). a) (0.5 puntos) En dicho sistema se quiere ejecutar el siguiente programa. Explique razonadamente lo que hace el código. Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 .equ N, 16 .data A: .word N valores enteros separados por comas B: .word N valores enteros separados por comas .text start: b) c) d) e) ldr r0, =A ldr r1, =B mov r4, #N L1: ldr r2, [r0] ldr r3, [r1] add r2, r2, r3 and r2, r2, #0xF str r2, [r0] add r0, r0, #4 add r1, r1, #4 sub r4, #1 cmp r4, #0 bne L1 end: b. (0.25 puntos) Con direcciones de 32 bits, indicar el formato de la dirección para MP y para la MC. (0.5 puntos) El programa se enlaza ubicando la sección .data a partir de la dirección 0x0C000000, y la sección .text se coloca a continuación de la sección .data. Obtenga los rangos de direcciones que ocupan el array A, el array B y las instrucciones, indicando para cada rango el/los bloques de memoria correspondientes, y el marco de bloque (bloque de cache) y la etiqueta asociados. (1 punto) Determine el número de aciertos y fallos de cache que se producirían al ejecutar el código anterior, hasta la primera vez que se ejecuta la instrucción que está en la etiqueta end. (0.75 puntos) Suponga que el programador cambia el valor N por 32. Obtenga de nuevo los bloques de memoria en que se ubicarían los datos y las instrucciones. Explique cualitativa y razonadamente cómo afectaría este cambio a los fallos de cache (No es necesario calcular el nuevo número de fallos, sólo explicar lo que sucedería). Ejercicio 3 (3 puntos) Dado un vector V de N componentes se dice que es Melchoriforme si posee al menos un elemento Rubio. Un elemento V[i] es Rubio si satisface la siguiente expresión: N −1 ∑ v [ j ] =2∗v [ i ] j=0 Se pide: a) (1 punto) Una subrutina SumaVector( V, N ) que sume los N elementos del vector V, respetando el convenio de llamadas a subrutinas visto en clase. b) (2 puntos) Un programa que dado un vector V y su dimensión N decida si es Melchoriforme, utilizando la subrutina SumaVector. Ejercicio 4 (1.5 puntos) El código de un determinado programa está constituido por instrucciones máquina con la siguiente frecuencia de ejecución: aritméticas 50%, carga 20%, almacenamiento 10% y salto condicional 20% (donde la mitad de los saltos se toman). En cierto procesador las instrucciones consumen los siguientes ciclos: aritméticas 4, carga 5, almacenamiento 4, salto no tomado 3, salto tomado 4. a) (0.5 puntos) Calcula el CPI del procesador al ejecutar este programa. Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 b) (0.5 puntos) Sabiendo que el programa se ha ejecutado en 8.2ms, y que la frecuencia del procesador es de 1GHz, calcula el número de instrucciones que se han ejecutado. c) (0.5 puntos) Suponiendo que por cada 100 instrucciones ejecutadas se produce 1 fallo de cache, que implica una penalización de 300 ciclos de reloj, calcula el nuevo tiempo de ejecución del programa. ¿Cuál sería entonces el nuevo CPI? Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 FUNDAMENTOS DE COMPUTADORES 18 de junio de 2014. Examen parcial del 2º cuatrimestre. Nombre__________________________________________________________DNI___________________________ __ Apellidos_________________________________________________________________________Grupo________ Gedownload door Amor Sánchez ([email protected]) X 0010 0001 101011 (sw) X 0101 0001 000000 (tipo-R) X 0111 0001 000100 (beq) X 1001 0 0 1 00 (add) 1 1 MemtoReg MDRWrite 0 0 0 0 0 RegWrite 0 RegDest 0 0 X 0011 0 0 0011 XXXXXX X 0100 0 0 0 1 0100 XXXXXX X 0000 0 0 0 0 0101 XXXXXX X 0110 0 0 0 0 0110 XXXXXX X 0000 0 0 1 0 0111 XXXXXX X 1000 0 0 0 0 1000 XXXXXX X 0000 0 0 0 0 1001 XXXXXX 0 0000 1001 XXXXXX 1 1010 0 0 1 00 01 (sub) 0 0 0 1010 XXXXXX X 0000 0 1 0 11 00 (add) 0 0 0 1 10 00 00 (add) 10 (funct) 1 1 XXXXXX 1 00 (add) 0 0010 0 10 IorD 100011 (lw) 01 MemRead 0001 0 MemWrite 1 OutWrite PCWrite 1 ALUOp IRWrite 0001 ALUScrB Estado siguiente X ALUSrcA Zero XXXXXX BWrite op 0000 AWrite Estado actual lOMoARcPSD|2193028 1 1 Gedownload door Amor Sánchez ([email protected]) 1 1 0 1 0 1 0 1 0 0 0 1 1 lOMoARcPSD|2193028 FUNDAMENTOS DE COMPUTADORES 18 de junio de 2014. Examen final . Nombre__________________________________________________________DNI____________________________ _ Apellidos_________________________________________________________________________Grupo________ Ejercicio 4 (2.5 puntos) Para el computador MIPS estudiado en clase, responder a las siguientes preguntas: c) (0.5 puntos) Qué instrucción/es, del repertorio de instrucciones del procesador MIPS estudiado en clase, se ven afectada/s y no se podrían ejecutar si se elimina de la ruta de datos el registro MDR, la entrada 1 del Mux que selecciona el dato que se escribe en el banco de registros, y por lo tanto dicho Multiplexor. d) (0.75 puntos) Partiendo de la ruta de datos completa del MIPS, se desea añadir una nueva instrucción Store con Direccionamiento Absoluto (SMDA). Se añade para ello un nuevo formato de instrucción con los siguientes campos (Op, Rs, dirección): El comportamiento de la instrucción SMDA sería el siguiente: SMDA Rs, dirección Mem[ExtCeros(dirección)] BR[rs] donde ExtCeros(dirección) extiende la dirección de 21 bits a 32 bits añadiendo ceros por la izquierda. Añade a la ruta de datos los cambios que tendrían que realizarse para poder ejecutar esta instrucción. e) (0.5 puntos) Añade los cambios necesarios en el diagrama de transición de estados del controlador para poder ejecutar correctamente esta nueva instrucción. f) (0.75 puntos) Indicar los cambios necesarios en la tabla de verdad del controlador (añadir las filas y columnas necesarias). Ejercicio 5 (3 puntos) Sea un computador con un procesador ARMv4. EL procesador cuenta con una memoria cache de emplazamiento directo de 256 bytes con bloques de 64 bytes, unificada para datos e instrucciones (se almacenan en la misma cache los bloques de instrucciones accedidos en la etapa FETCH y los bloques de datos accedidos durante las etapas que hacen acceso a memoria en las instrucciones ldr y str). f) (0.5 puntos) En dicho sistema se quiere ejecutar el siguiente programa. Explique razonadamente lo que hace el código. Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 .equ N, 16 .data A: .word N valores enteros separados por comas B: .word N valores enteros separados por comas .text start: g) h) i) j) ldr r0, =A ldr r1, =B mov r4, #N L1: ldr r2, [r0] ldr r3, [r1] add r2, r2, r3 and r2, r2, #0xF str r2, [r0] add r0, r0, #4 add r1, r1, #4 sub r4, #1 cmp r4, #0 bne L1 end: b. (0.25 puntos) Con direcciones de 32 bits, indicar el formato de la dirección para MP y para la MC. (0.5 puntos) El programa se enlaza ubicando la sección .data a partir de la dirección 0x0C000000, y la sección .text se coloca a continuación de la sección .data. Obtenga los rangos de direcciones que ocupan el array A, el array B y las instrucciones, indicando para cada rango el/los bloques de memoria correspondientes, y el marco de bloque (bloque de cache) y la etiqueta asociados. (1 punto) Determine el número de aciertos y fallos de cache que se producirían al ejecutar el código anterior, hasta la primera vez que se ejecuta la instrucción que está en la etiqueta end. (0.75 puntos) Suponga que el programador cambia el valor N por 32. Obtenga de nuevo los bloques de memoria en que se ubicarían los datos y las instrucciones. Explique cualitativa y razonadamente cómo afectaría este cambio a los fallos de cache (No es necesario calcular el nuevo número de fallos, sólo explicar lo que sucedería). Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 FUNDAMENTOS DE COMPUTADORES 18 de junio de 2014. Examen final. Nombre__________________________________________________________DNI____________________________ _ Apellidos_________________________________________________________________________Grupo________ Gedownload door Amor Sánchez ([email protected]) X 0010 0001 101011 (sw) X 0101 0001 000000 (tipo-R) X 0111 0001 000100 (beq) X 1001 0 0 1 00 (add) 1 1 MemtoReg MDRWrite 0 0 0 0 0 RegWrite 0 RegDest 0 0 X 0011 0 0 0011 XXXXXX X 0100 0 0 0 1 0100 XXXXXX X 0000 0 0 0 0 0101 XXXXXX X 0110 0 0 0 0 0110 XXXXXX X 0000 0 0 1 0 0111 XXXXXX X 1000 0 0 0 0 1000 XXXXXX X 0000 0 0 0 0 1001 XXXXXX 0 0000 1001 XXXXXX 1 1010 0 0 1 00 01 (sub) 0 0 0 1010 XXXXXX X 0000 0 1 0 11 00 (add) 0 0 0 1 10 00 00 (add) 10 (funct) 1 1 XXXXXX 1 00 (add) 0 0010 0 10 IorD 100011 (lw) 01 MemRead 0001 0 MemWrite 1 OutWrite PCWrite 1 ALUOp IRWrite 0001 ALUScrB Estado siguiente X ALUSrcA Zero XXXXXX BWrite op 0000 AWrite Estado actual lOMoARcPSD|2193028 1 1 Gedownload door Amor Sánchez ([email protected]) 1 1 0 1 0 1 0 1 0 0 0 1 1 lOMoARcPSD|2193028 Fundamentos de Computadores 17 de Junio de 2015. Examen Parcial 2º Cuatrimestre Nombre:____________________________________ DNI: ________________ Apellidos: ___________________________________________ Grupo: _____ Ejercicio 1. (3 puntos) Responde a las siguientes cuestiones, suponiendo que el vector V está almacenado a partir de la dirección de memoria 0x0C000000 y que el código se encuentra a continuación de los datos. El código almacena en la variable CuentaTotal el sumatorio de todos los números positivos que contiene el vector. Para realizar este sumatorio, se utilizan dos subrutinas: Cuenta y Averigua. El estudiante sólo necesita saber de la subrutina Averigua que como parámetro de entrada recibe el entero V[i] y como resultado devuelve: (1) el valor de V[i], si V[i] es positivo; (2) 0, si V[i] es negativo. .data V: .word 1,2,­3,4,5,9,17,­15,20,12 N: .word 10 .bss CuentaTotal: .space 4 .text start: ldr r0,=V ldr r1,=N bl Cuenta ldr r1, =CuentaTotal str r0, [r1] end: b end Cuenta: bucle: fin_bucle: PRÓLOGO_1 mov r2, #0 mov r5, #0 ldr r4, [r1] cmp r2, r4 beq fin_bucle ldr r3, [r0, r2, lsl #2] bl Averigua add r5, r5, r0 add r2, r2, #1 b bucle move r0, r5 EPÍLOGO_1 mov pc, lr a) (0,5 ptos.) Indicar el valor de la dirección de la etiqueta Cuenta, es decir, a qué dirección salta la instrucción bl Cuenta. Razona la respuesta. b) (1 pto.) La subrutina Cuenta no es correcta considerando el estándar de llamadas a procedimientos de ARM. Modificar el código de dicha subrutina para que respete este estándar. c) (0,5 ptos.). Codificar el prólogo y el epílogo de la subrutina Cuenta, teniendo en cuenta las modificaciones del apartado b. d) (1 ptos.). Codificar en ensamblador la subrutina Averigua. Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 Ejercicio 2 (3 puntos) a) (1 punto) En la ruta de datos del procesador MIPS visto en clase se ha cambiado el banco de registros. Ahora el banco de registros tiene un sólo puerto de lectura en vez dos, como se muestra en la figura. Completa la ruta de datos para que puedan seguir realizándose en todas las instrucciones las transferencias A <­ Rs y B <­ Rt. b) (1 punto) Modifica el diagrama de estados para que se puedan ejecutar correctamente todas las instrucciones que hemos considerado para el diseño del procesador. Añade nuevos estados si es necesario e indica si es necesario añadir alguna señal de control nueva. Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 c) (1 punto) Indicar los valores que van tomando todos los registros internos de la ruta de datos al final de cada etapa en la ejecución de la instrucción Add R1, R2, R3, sabiendo que el código de operación (OP) de las instrucciones aritmético­lógicas es (000000)2, el valor de los campos SHAMT y FUNCT para la instrucción Add es (00000)2 y (100000)2 respectivamente, y que el estado actual de la máquina es: R1=0x00000017, R2=0x00110011, R3=0x00000000 y PC=0x00003400. Recordar que el formato de las instrucciones Tipo­R es: Ejercicio 3 (3 puntos) Una jerarquía de memoria está compuesta por una memoria principal de 16 Mbytes y una cache con emplazamiento directo de 16 Kbytes. El tamaño de bloque es de 256 bytes. Sobre esta jerarquía de memoria se ejecuta un millón de accesos de lectura, obteniéndose una tasa de aciertos de 0,995. Se supone que el tiempo de acceso a la memoria principal es de 20 ns, el tiempo de acceso a la cache es de 1 ns y la penalización por fallo es de 400 ns. Responde a las siguientes cuestiones (0,5 puntos cada apartado): Nota: Todos los datos numéricos del problema están en decimal. Las respuestas numéricas pueden darse en el sistema decimal o hexadecimal, a elección del estudiante. a) Muestra el formato de la dirección para la Mp y la cache. b) Si el bloque nº 87 de la Mp tiene que llevarse a la cache ¿qué nº de bloque de cache se le asigna? c) ¿A cuántos bloques de Mp le corresponde el mismo bloque en la cache? Indica el nº del primer y el último bloque de Mp a los que les corresponde alojarse en el bloque 22 de la cache. d) ¿Cuál es el tiempo medio de acceso a memoria? e) ¿Cuánto se tarda en ejecutar la secuencia de accesos a memoria descrita? f) ¿Qué ganancia de velocidad se obtiene respecto del mismo sistema, pero sin la cache? Ejercicio 4 (1 punto) Al ejecutar un programa, P, en un computador, C , el rendimiento obtenido ha sido 400 MIPS. La frecuencia de reloj es de 1,66 GHz. a) (0,5 puntos) ¿Cuál ha sido el número medio de ciclos de reloj por instrucción? b) (0,5 puntos) Suponemos que P está compuesto por tres tipos de instrucciones del repertorio de C, cuya frecuencia de ejecución y duración en ciclos de reloj es, respectivamente, la siguiente: · Acceso a memoria: 30% , 5 ciclos · Aritméticas: 50%, 4 ciclos · Salto condicional: 20%, 4 ciclos si el salto se toma, 3 ciclos si no se toma. En promedio, de cada 100 saltos condicionales ejecutados ¿cuántos se han tomado? Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 Fundamentos de Computadores 16 de Junio de 2016. Examen Parcial 2º Cuatrimestre Nombre:____________________________________ DNI: ________________ Apellidos: ___________________________________________ Grupo: _____ Ejercicio 1 (3 puntos) Un procesador cuenta con una jerarquía de memoria que está compuesta por una memoria principal de 64MB y una cache con emplazamiento directo de 4KB con 16 bloques. En dicho procesador se ejecuta un código que genera accesos de lectura a memoria consecutivos a todas las direcciones entre 0x0300800 y 0x03017FF. a) (0.25 puntos) Muestra el formato de la dirección para la Mp y la cache b) (0.75 puntos) Indica los fallos de cache que provocará la ejecución del código indicando los bloques sobre los que se produce el fallo, asumiendo que la cache está inicialmente vacía c) (0.75 puntos) Indica cuál será el contenido del directorio (array de etiquetas o tags) tras finalizar la ejecución Supongamos que a continuación vuelve a ejecutarse el mismo código una segunda vez: d) (0.5 puntos) ¿Cuántos fallos de cache se producirían la segunda vez? e) (0.75 puntos) Si el tiempo de acceso a la memoria principal es de 20 ns, el tiempo de acceso a la cache es de 1 ns y la penalización por fallo es de 400 ns, indica cuál sería el tiempo medio de acceso a memoria y la ganancia que se obtiene respecto a un sistema sin cache (teniendo en cuenta las dos ejecuciones del código). Ejercicio 2 (1 punto) En un determinado computador con procesador ARM a una frecuencia de reloj de 1.5GHz se ejecuta el siguiente programa: L1: mov r4, ldr r5, mov r6, cmp r4, bge L2 ldr r0, add r6, add r4, b L1 #0 =A #0 #128 [r5, r4, lsl #2] r6, r0 r4, #1 L2: b . a) Suponiendo que las instrucciones aritmético lógicas tardan 4 ciclos, las instrucciones de carga tardan 5 ciclos, los saltos tomados 4 ciclos y los no tomados 3 ciclos, obtener el número medio de ciclos por instrucción para este programa (CPI) (hasta la primera vez que se ejecuta la instrucción b . ). b) En el apartado anterior se suponía un comportamiento ideal en el que todos los accesos a memoria se realizan en 1 ciclo de reloj, en cuyo caso las instrucciones de carga tardan los 5 ciclos de reloj indicados. Supongamos ahora que el sistema tiene una memoria cache en la que se produce un fallo por cada 16 ejecuciones de la instrucción ldr r0, [r5, r4, lsl #2] y que la penalización por fallo es de 100 ciclos. Teniendo en cuenta el tiempo adicional debido a las penalizaciones, calcular de nuevo el CPI. Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 Ejercicio 3 (3 puntos) Dado un vector, A, de 3*N componentes, se desea obtener un nuevo vector, B, de N componentes donde cada componente de B es la suma módulo 32 de una tripleta de elementos consecutivos de A. Es decir: B[0] = (A[0]+A[1]+A[2]) mod 32, B[1] = (A[3]+A[4]+A[5]) mod 32, etc Se pide: a) (1.25 puntos) Escribir un programa en lenguaje ensamblador del ARM que implemente el cálculo descrito de acuerdo con el siguiente código C equivalente: #define N 4 int A[3*N] = {una lista de 3*N valores}, int B[N]; int i, j=0; void main (void) { for (i=0; i<N; i++){ B[i] = sum_mod_32(A, j, 3); j=j+3 } } donde la subrutina sum_mod_32(V,p,m) devuelve como resultado la suma módulo 32 de m elementos consecutivos del vector V tomados a partir de la posición p. b) (1.25 puntos) Escribir el código ensamblador de la subrutina sum_mod_32, de acuerdo al siguiente código C equivalente: sum_mod_32 (int A[ ], int j, int len) { int i, sum=0; for (i=0; i<len; i++) sum = sum + A[j+i]; sum=mod_power_of_2(sum,5); return sum; } donde la subrutina mod_power_of_2(num, exp), siendo num un entero positivo y exp un entero mayor que 0 y menor que 32, devuelve como resultado el valor de (num mod 2^exp). Por ejemplo, si invocamos a la función como: mod_power_of_2(34, 5), la función devolvería como salida: ((34) mod (2^5))=(34 mod 32)=2. c) (0.5 puntos) El siguiente código ensamblador es una implementación de la subrutina mod_power_of_2, sin prólogo ni epílogo. Añadir el prólogo, el epílogo y añadir también comentarios ilustrativos a las instrucciones que expliquen cómo se va realizando el cálculo. Ayuda: Para entender el flujo del programa se sugiere considerar un caso concreto; por ejemplo, el caso del cálculo de módulo 25. mod_power_of_2: .... prólogo .... loop3: endloop3: mov mov mov r3,#0 r4,#0 r2,#1 cmp bge add mov add b and r4,r1 endloop3 r3,r3,r2 r2,r2, lsl #1 r4,r4,#1 loop3 r0,r0,r3 .... epílogo .... Nota.- En todos los apartados se debe respetar el estándar de llamadas a subrutinas estudiado en clase, y las variables pueden ubicarse en registros o en memoria (global o pila según corresponda). Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 Ejercicio 4. (3 puntos) Se desea añadir al procesador MIPS estudiado en clase la instrucción Load Upper Immediate, cuyo nemotécnico sería: LUI Rx, Immediate codificada como una instrucción Tipo-I: 6 5 5 110011 not used Rx 16 Immediate y cuya descripción se correspondería con el siguiente movimiento registro a registro: BR(Rx) <- (Immediate << 16) , PC <- PC + 4 es decir, el contenido del campo Immediate de la instrucción se desplaza 16 posiciones a la izquierda, rellenando con ceros por la derecha, y se almacena en el registro destino. a) (1 punto) Indicar los cambios necesarios en la ruta de datos del MIPS estudiada en clase. b) (1 punto) Indicar los cambios necesarios en el diagrama de transición de estados del controlador. c) (1 punto) Indicar los cambios necesarios en la tabla de verdad del controlador. PCWrite IorD MemWrite IRWrite RegDst AWrite ALUSrcA OutWrite ALUop Control de ALU RegWrite 1 MUX 1 0 4 busW 1 2 0 MUX MDR 1 MDRWrite MemtoReg <<2 Instruc. [15-0] BWrite Extensión de signo MemRead 3 Gedownload door Amor Sánchez ([email protected]) ALUSrcB ALUout busB Zero ALU RW busA A 0 Instrucción [15-11] DW RB MUX DR Banco de registros Instrucción [20-16] IR 1 B RA ADDR MUX Instrucción [25-21] Memoria MUX PC 0 0 lOMoARcPSD|2193028 Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 1 a) 18 8 Bloque P Etiqueta 14 M P 4 8 b) Contamos un acceso por dirección entre 0x0300800 y 0x03017FF La primera dirección corresponde al comienzo del bloque 0x03008, que le corresponde el bloque de cache M = 8 con etiqueta 0x0300. La última dirección corresponde al final del bloque 0x03017, al que le corresponde el bloque de cache M = 7, con etiqueta 0x0301. Por lo tanto se han accedido todos los bloques entre 0x03008 y el 0x03017, 16 en total. Se produce un fallo por bloque accedido, por tanto 16 fallos. c) M 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 V 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Etiqueta 0x0301 0x0301 0x0301 0x0301 0x0301 0x0301 0x0301 0x0301 0x0300 0x0300 0x0300 0x0300 0x0300 0x0300 0x0300 0x0300 d) Como todos los bloques accedidos están en cache, no se produce ningún fallo de cache e) Con cache: Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 T = Nº Accesos x Tiempo de acceso a cache + Nº de fallos x Penalización por fallo = = 2*2^12 x 1ns + 16 x 400 ns = 14,6 ms Sin cache: T = Nº Accesos x Tiempo de acceso a MP = 2*2^12 * 20 ns = 163,8 ms Speedup = 163,8 / 14,6 = 11,2 2 a) Nº de loads = 1 + 1*128 = 129 Nº de stores = 0 Nº de aritmetico lógicas = 2 + 3*128 + 1 = 387 Nº de saltos tomados = 1 + 1*128 +1 = 130 Nº de saltos no tomados = 128 CPI = (129*5 + 387*4 + 130*4 + 128*3) / (129+387+130+128) = 3097 / 774 = 4,0013 b) Tenemos que sumar al número de ciclos los ciclos adicionales de penalización: CPI = (3097 + 128/16 * 100) / 774 = 5,0349 3 .extern _stack .equ N, 4 .data A: .word .bss B: .space N*4 .text start: loop1: 20,12,63,45,140,34,20,30,40,45,55,65 ldr mov ldr ldr mov mov sp,=_stack fp,#0 r6,=A r7,=B r5, #0 r4, #0 @ r5 = loop counter i @ R4 = Index j cmp bge r5, #N endloop1 @ if loop exhausted, go to mov mov mov r0,r6 r1,r4 r2,#3 bl sum_mod_32 str add add b r0,[r7,r5,lsl#2] r5,r5,#1 r4,r4,#3 loop1 end @ prepare call parameters @ store B[i] @ i++ @ Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 endloop1: b . // Subroutine sum_mod_32 (non-leaf) sum_mod_32: push {r4-r8,fp,lr} add fp,sp,#4*(7-1) @ PROLOG mov mov mov mov r4,#0 r5,#0 r6,r0 r7,r1 @ @ @ @ mov r8,r2 @ number of elements to cmp bge add ldr add add b r4,r8 endloop2 r0,r7,r4 r3,[r6,r0,lsl#2] r5,r5,r3 r4,r4,#1 loop2 mov mov bl r0,r5 r1,#5 mod_power_of_2 r4 = i r5=sum dir A initial position of the addition add loop2: endloop2: sub pop mov sp,fp,#4*(7-1) {r4-r8,fp,lr} pc, lr @ r0 = i+j @ r3=A[i+j] @ increase sum @i++ @ EPILOG // Subroutine sum_mod_32 (leaf) mod_power_of_2: push {r4,fp} add fp,sp,#4*(2-1) @ PROLOG mov mov mov r3,#0 r4,#0 r2,#1 @ intialize the mask @ i: loop counter @ auxiliary value to create the cmp r4,r1 @ compare the counter to the bge add lsl endloop3 r3,r3,r2 r2,r2,#1 @ update the mask @ move the "one" to the next add b r4,r4,#1 loop3 @ i++ and r0,r0,r3 @ r0 = r0 mod 2^exponent mask loop3: exponent position endloop3: sub pop mov sp,fp,#4*(2-1) {r4,fp} pc,lr @ EPILOG .end 4 Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 a) PCWrite IorD IRWrite MemWrite RegDst AWrite ALUSrcA OutWrite ALUop Control de ALU RegWrite MUX 0 4 1 2 0 1 2 ALUSrcB <<2 BWrite 2 Extensión de signo << 16 Instruc. [15-0] MDRWrite 3 MUX MDR MemRead MemtoReg b) A <- BR( rs ) B <- BR( rt ) op = ‘110011 ’ 11 BR(rt) <-Inst[15-0] << 16 c) Gedownload door Amor Sánchez ([email protected]) ALUout busB busW 1 Zero 1 ALU RW busA A RB 0 Instrucción [15-11] DW Banco de registros Instrucción [20-16] DR MUX 1 IR Memoria ADDR B RA MUX Instrucción [25-21] MUX PC 0 0 X 0010 0001 101011 (sw) X 0101 0001 000000 (tipo-R) X 0111 0001 000100 (beq) X 1001 0 0 1 1 MemtoReg 0 1 0 0 0 1 0 0 0 0 0 0 00 (add) RegWrite 1 01 RegDest 0 0 MDRWrite IorD 100011 (lw) MemRead 0001 MemWrite 1 OutWrite PCWrite 1 ALUOp IRWrite 0001 ALUScrB Estado siguiente X ALUSrcA Zero XXXXXX BWrite op 0000 AWrite Estado actual lOMoARcPSD|2193028 0 0001 110011 (LUI) X 1011 0 0 0010 XXXXXX X 0011 0 0 0011 XXXXXX X 0100 0 0 0 1 0100 XXXXXX X 0000 0 0 0 0 0101 XXXXXX X 0110 0 0 0 0 0110 XXXXXX X 0000 0 0 1 0 0111 XXXXXX X 1000 0 0 0 0 1000 XXXXXX X 0000 0 0 0 0 1001 XXXXXX 0 0000 0 0 1 00 01 (sub) 0 0 0 1010 XXXXXX X 0000 0 1 0 11 00 (add) 0 0 0 1011 XXXXXX X 0000 0 0 0 0 1 0 1 1 10 10 00 00 (add) 00 (add) 10 (funct) 1 1 1 Gedownload door Amor Sánchez ([email protected]) 1 1 0 01 0 1 0 1 0 0 00 10 1 0 1 1 lOMoARcPSD|2193028 Fundamentos de Computadores 2ºC. 31 de mayo de 2019. Examen 2º Parcial (todos los apartados, 10 puntos). Examen Final (solo apartados en negrita, 5.5 puntos). Nombre:____________________________________ DNI: _________________ Apellidos: ____________________________FINAL/PARCIAL:_______________ Ejercicio 1. Queremos añadir una memoria cache a un procesador con arquitectura de 32 bits (bus de direcciones es de 32 bits y bus de datos de 32 bits). La Memoria Principal (MP) direcciona 4Gpalabras. La Memoria Cache (MC) direcciona 1 Kpalabras. Los bloques de memoria son de 16 palabras. a) (0.25 p) Muestra el formato de la dirección desde el punto de vista de la MP y de la MC. DirMP: 32bits : B:28bits, P:4bits DirMC: 10bits : E:22bits, M:6bits, P:4bits b) (0.25) ¿Cuál es el tamaño de la MP y de la MC en Bytes?(en la MC incluye las etiquetas del directorio y dos bits, uno de validez y otro de escritura por cada marco) MP: 2^32Palabras=2^32*2^2B =16GB MC: 2^10palabras*2^2B+2^6*(22+2)bits=4KB+64*4B=4KB+256B=1280B c) (0.25 p) ¿Qué bloques de MP ocupan los primeros 16KB? 16KB=4Kpal: 12 bits=> Nº de bloques ocupados 2^(12-4)=2^8=256 primeros bloques. d) (0.5 p) Traza a qué marcos de MC van los primeros 16KBytes de MP y con qué etiquetas. B0..B63 ->M0..M63 Etiqueta b0..00 B64..B127 ->M0..M63 Etiqueta b0..01 B128..B191 ->M0..M63 Etiqueta b0..10 B192..B255 ->M0..M63 Etiqueta b0..11 e) (0.25) Cuantos fallos se producen al leer las palabras que ocupan los primero 16KB de forma secuencial. Un fallo por bloque de MP que se trae a MC. 256 fallos f) (0.5) Si el TMP=20ns, TMC=1ns y Tfallo=100ns. ¿Cuantas veces es más rápido con MC que sin ella? TiempoMP=4Kaccesos*20ns=4*1024*20ns=81,92µs TiempoMC=4Kaccesos*1ns+256*100ns=29,696 µs SpeedUp=81,92µs/29,696 µs=2,76 veces más rápido con MC. g) (1 p) Disponemos de un Chip SRAM que tiene los siguientes puertos: CE#,OE# WE#, A9…A0 y D8…D0. Utilizando el chip anterior diseña una memoria cache (MC) que maneje 1Kpalabra (palabra=32bits). Nota: Solo direccionar palabras, no bytes. Las lineas de direcciones y de datos del chip indican que es capaz de direccionar 2^10 bytes. Tan solo habrá que situar 4 chips en paralelo (cuatro columnas) para conseguir 2^10 palabras. • No es necesario decodificador. • CE#,OE# WE# de cada módulo conectados directamente a CE#,OE# WE# de la entrada. • A11..A2 conectados directamente al puerto de entrada de direcciones (si el bus de direcciones es tamaño palabra sería las líneas A9..A0). Dar ambas soluciones por válidas. • El puerto de datos B31..B0 lo forman los 4 puertos de datos de los chips. B31..B24<->D8..D0 de 1ª columna, B23..B16<->D8..D0 de 2ª columna, B15..B8 <->D8..D0 de 3ª columna, B7..B0 <->D8..D0 de 4ª columna, Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 Ejercicio 2. Supongamos un programa de 256KB formado exclusivamente por instrucciones de 32 bits. Si se ejecuta en un procesador a una frecuencia de 1 GHz y se obtienen un rendimiento de 200 MIPS. a) (0.5) Calcula el CPI CPI= (10^9ciclos/s)/(200*10^6instr/s)= 5 b) (0.5 p) Calcula el tiempo de ejecución del programa suponiendo que cada instrucción se ejecuta una sola vez. Tiempo=256*2^10 B * 1instr/4B /(200 *10^6 instr/s)=327 µs Ejercicio 3. Añadir al procesador MIPS una instrucción que copie el valor de un registro en otro registro aplicando un número de desplazamientos aritméticos sobre el registro fuente, de forma similar a como lo hace la instrucción MOV de ARM. La instrucción en ensamblador sería: MOV Rt,Rs,#inmediato que se codifica como: y debe hacer la siguiente transferencia lógica: BR(Rt) <- DespArit(BR(Rs),inmediato), PC <- PC + 4 Se dispone de un módulo combinacional para implementar la función DespArit(Din,N), que hace N desplazamientos aritméticos, a la izquierda si N es positivo y a la derecha N si es negativo. 32 / / 32 Din Dout N 32 / Se pide: a) (1 punto) Indicar los cambios necesarios en la ruta de datos del MIPS estudiada en clase. Conectar: • Din a la salida del Registro A • N a la salida de ExtSign • Dout a la entrada b10 de Mux MemtoReg (Señal de control de 2 bits) Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 b) (1 punto) Indicar los cambios necesarios en el diagrama de transición de estados del controlador. Estado 1->Estado 11 si opcod=’MOV’ Estado11(BR(Rt) <- DespArit(BR(Rs),inmediato)) Como es un módulo combinacional se puede hacer todo en un ciclo (si da tiempo) Estado 11-> Estado 0 c) (1 punto) Indicar los cambios necesarios en la tabla de verdad del controlador. E0000 si OP=’MOV’ salto a E1011 (Señales de control igual) E1011: • Todas las escrituras en registros y memoria a 0 excepto RegWrite=1 • Todas las señales de control de multiplexores indiferentes excepto RegDst=0 y MemtoReg=10 (en esta columna habrá que completar a 2 bits) Gedownload door Amor Sánchez ([email protected]) X 0101 0001 000000 (tipo-R) X 0111 0001 000100 (beq) X 1001 0001 (mov) X 1011 0 0 MemtoReg 0 0 0 1 0 0 0 0 0 0 1 XXXXXX X 0011 0 0 0011 XXXXXX X 0100 0 0 0 1 0100 XXXXXX X 0000 0 0 0 0 0101 XXXXXX X 0110 0 0 0 0 0110 XXXXXX X 0000 0 0 1 0 0111 XXXXXX X 1000 0 0 0 0 1000 XXXXXX X 0000 0 0 0 0 1001 XXXXXX 0 0000 1001 XXXXXX 1 1010 0 0 1 00 01 (sub) 0 0 0 1010 XXXXXX X 0000 0 1 0 11 00 (add) 0 0 0 1011 XXXXXX X 0000 0 0 0 0 1 1 10 00 00 (add) 00 (add) 10 (funct) 1 0 0010 0 10 RegDest RegWrite 1 00 (add) MDRWrite IorD 101011 (sw) MemRead 0001 OutWrite 1 0010 01 ALUOp 1 X 0 0 ALUScrB 0 100011 (lw) 1 ALUSrcA 0 0001 0 BWrite 1 AWrite 1 MemWrite 0001 PCWrite X IRWrite XXXXXX 0000 Estado siguiente Zero op Estado actual lOMoARcPSD|2193028 1 1 1 1 0 01 0 1 0 1 0 0 00 10 1 1 1 1 Ejercicio 4. Se quiere cambiar una imagen de formato RGBA a formato CMYK para imprimirla. Para ello se utiliza el siguiente código de alto nivel. typedef struct _pixel_32_t { unsigned char R; %Canal de Rojo unsigned char G; %Canal de Verde unsigned char B; %Canal de Azul unsigned char A; %Canal de Transparencia } pixel32; %Un pixel ocupa una palabra de 32 bits. pixel32 rgba2cmyk(pixel32 rgba); %Se desconoce su implementación pues se suministra compilada %rgba es una palabra que contiene el pixel original RGBA. %Devuelve una palabra con el pixel en formato CMYK. void TraduceImagen(pixel32 *rgba,int N, int M) {%La imagen es un array de N*M pixeles(palabras) %pixel32 *rgba: será la dirección de memoria base del array. %N es el número de filas y M es el número de columnas for (int i=0;i<N*M;i++) rgba[i] = rgba2cmyk(rgba[i]); } a) (2 puntos) Escribir en ensamblador la subrutina TraduceImagen acorde al estándar AAPCS visto en clase. Gedownload door Amor Sánchez ([email protected]) lOMoARcPSD|2193028 b) (1 punto) Escribir un programa en ensamblador que prepare la pila y llame a la subrutina TraduceImagen. Debe asumir que las variables pixel32 mirgba[N],[M], int N e int M son variables creadas en otro fichero. .extern .extern .extern .extern .extern .global mirgba N M rgba2cmyk _stack start .text TraduceImagen: push {R4-R8,FP,LR} add FP,SP,#6*4 mov R4,R0 //&rgba mov R5,R1 //N mov R6,R2 //M mov R7,#0 //i=0 mul R8,R5,R6 //N*M fi: cmp R7,R8 bge finfi ldr R0,[R4,R7,LSL #2] bl rgba2cmyk str R0,[R4,R7,LSL #2] add R7,R7,#1 b fi finfi: pop {R4-R8,FP,LR} mov PC,LR start: ldr sp,=_stack mov fp,#0 ldr R0,=mirgba //&mirgba ldr R1,=N ldr R1,[R1] //Dato N ldr R2,=M ldr R2,[R2] //Dato M bl TraduceImagen b . .end Gedownload door Amor Sánchez ([email protected])