Sistemas Computacionales - Universidad de Concepción

Anuncio
Sistemas
Computacionales
Ejercicios resueltos y planteados
Mario Medina C.
Depto. Ing. Eléctrica
Facultad de Ingeniería
Universidad de Concepción
2014
ii
Prefacio
Esta es una colección de ejercicios de sistemas computacionales que
espero sea de utilidad a aquellos alumnos empeñados en desarrollar las
habilidades y competencias asociadas a esta materia. Muchos de ellos
aparecen en los textos enumerados en la bibliografía de este documento;
otros han sido creados por el autor para ser usados en tareas y exámenes.
Es mi opinión que la única forma de aprender es haciendo. Se espera
que los ejercicios planteados sean desarrollados por Uds., los alumnos.
Por ello, en la mayoría de éstos, sólo se indica la solución final.
Estoy siempre dispuesto a responder consultas sobre estos ejercicios, ya sea via correo electrónico o en persona. Asimismo, rogaría me
hicieran llegar cualquier corrección o comentario a los ejercicios de este
libro.
Asi que, buena suerte, y provecho!
Mario Medina C.
[email protected]
Índice general
1 Representación digital de información
1
2 Ensamblador Intel x86 y lenguaje C
11
3 Procesador Y86
35
4 Pipelining
45
5 Optimización de código
54
6 Sistemas de memoria
55
7 Planificación de procesos
67
iii
Capítulo
Representación digital de
información
1.1 Suponga que un compilador C para un procesador de 32 bits representa los números negativos utilizando complemento a 2, y que utiliza desplazamientos aritméticos para los desplazamientos a la derecha. Suponga además que x e y son números enteros con signo arbitrarios, y que ux y uy son números enteros sin signo arbitrarios, tal que
ux = (unsigned) x y que uy = (unsigned) y.
Entonces, para cada una de las siguientes expresiones en lenguaje C,
indique si la expresión siempre es verdadera. En caso contrario, indique
posibles valores de x y/o y que la hagan falsa.
a) ((x + y) << 4) + y - x == 17*y + 15*x
b) ~x + ~y == ~(x + y)
c) (int) (ux - uy) == -(y - x)
d) ((x >> 1) << 1) <= x
Solución
a) Verdadera. 17*y equivale a y << 4 + y, y 15*x equivale a x << 4 − x.
b) Falsa. Contraejemplo: ∼ x+ ∼ y = (−x − 1) + (−y − 1) = −(x + y) − 2 =∼
(x + y) + 1.
c) Verdadera
d) Verdadera
1
1
Capítulo 1: Representación digital de información
2
1.2 Suponga que se dispone de un procesador de 32 bits, que usa aritmética de complemento a 2 para la representación de números con signo.
Se utilizan desplazamientos lógicos para los enteros sin signo, y desplazamientos aritméticos para los enteros con signo. Suponga además que
se sabe que x e y son enteros con signo, y que ux y uy son enteros sin
signo. Entonces, para cada una de las siguientes expresiones, indique si
son verdaderas para todos los valores posibles de x e y. En caso que sean
falsas, indique los valores de x y/o y para los cuales las expresiones no
se cumplen.
a) (x >= 0) || ((2*x) < 0)
b) (x & 7) != 7 || (x << 30 < 0)
c) (x * x) >= 0
d) x < 0 || -x <= 0
e) x > 0 || -x >= 0
f ) x*y == ux*uy
g) ~x*y +ux*uy == -y
Solución
a) Falsa. Sea x = −232 . Entonces, 2*x = 0.
b) Verdadera. Si (x & 7) != 7 es falsa, entonces el bit x2 = 1. Al
desplazar x 30 bits a la izquierda, el bit x2 pasa a ser el bit de
signo.
c) Falsa. Si x = 0xFFFF, lo que equivale a 65535, entonces se tiene
que x*x = 0xFFFE0001, es decir, −131071.
d) Verdadera.
e) Falsa. Sea x = −232 . Entonces, x y -x son negativas.
f ) Verdadera.
g) Verdadera.
1.3 Suponga que las variables x, f y d son de tipos int, float y double,
respectivamente. Suponga además que tanto f como d son diferentes
de ∞, −∞ y N aN . Para cada una de las siguientes expresiones, indique
si son verdaderas para todos los valores posibles de las variables involucradas. En caso que sean falsas, indique los valores de dichas variables
para los cuales las expresiones no se cumplen.
3
Capítulo 1: Representación digital de información
a) x == (int)(float) x
b) x == (int)(double) x
c) f == (float)(double) f
d) d == (float) d
e) f == -(-f)
f ) 2/3 == 2/3.0
g) (d >= 0.0) || ((d*2) < 0.0)
h) (d + f) - d == f
Solución
a) Falso. Contraejemplo: x = 232 .
b) Verdadero.
c) Verdadero.
d) Falso. Contraejemplo: x = 1040 .
e) Verdadero.
f ) Falso.
g) Verdadero.
h) Falso. Contrajemplo: d = +∞ y f = 1.
1.4 Sea un procesador de 32 bits que utiliza complemento a 2. Entonces,
para las expresiones siguientes, rellene la siguiente tabla con el tipo del
resultado (signed ó unsigned) y si la expresión es F ó V .
Expresión
−2147483647 − 1
−2147483647 − 1
−2147483647 − 1U
−2147483647 − 1
−2147483647 − 1U
==
<
<
<
<
Tipo
2147483648U
2147483647
2147483647
−2147483647
−2147483647
Solución
La siguiente tabla muestra la solución.
FóV
4
Capítulo 1: Representación digital de información
Expresión
−2147483647 − 1
−2147483647 − 1
−2147483647 − 1U
−2147483647 − 1
−2147483647 − 1U
==
<
<
<
<
2147483648U
2147483647
2147483647
−2147483647
−2147483647
Tipo
FóV
unsigned
signed
unsigned
signed
unsigned
true
true
false
true
true
1.5 En una máquina de 32 bits, sean x, y y z enteros de valor arbitrario.
Entonces, dado el siguiente código,
unsigned ux
double dx =
double dy =
double dz =
= (unsigned int) x;
(double) x;
(double) y;
(double) z;
indique cuáles de las siguientes expresiones siempre son verdaderas. En
caso contrario, debe indicar un contraejemplo para recibir el puntaje
asociado.
a) (x >= 0) || (x < ux)
b) dx + dy == (double) (y + x)
c) dx + dy + dz == dz + dy + dx
d) dx*dy*dz == dz*dy*dx
Solución
a) Verdadero
b) Falso. Contraejemplo: x, y = 231 − 1.
c) Falso. Contraejemplo: x = 3.14, y = DBL_MAX y z = −DBL_MAX.
√
√
d) Falso. Contraejemplo: x = 0.01, y = DBL_MAX y z = DBL_MIN.
donde DBL_MIN y DBL_MAX son los valores mínimos y máximos representables en un número de punto flotante de doble precisión.
1.6 Considere la siguiente representación de punto flotante de 16 bits basada en el estándar IEEE-754:
El bit más significativo es el bit de signo
Los 7 bits siguientes son el exponente, que se almacena como e+63
5
Capítulo 1: Representación digital de información
Los últimos 8 bits son la mantisa, que se codifica con la técnica del
1 implícito.
Siguiendo reglas de representación similares a IEEE-754, indique las
representaciones hexadecimales de los siguientes números:
a) −0
b) Menor número positivo mayor que 1
c) Mayor número positivo denormalizado
d) −∞
e) NotANumber
Solución
La siguiente tabla muestra la solución del problema.
Número
−0
Menor número positivo mayor que 1
Mayor número positivo denormalizado
−∞
NotANumber
Signo
Mantisa
Exponente
1
0
0
1
0
0x00
0x01
0xFF
0x00
0x01
0x00
0x01
0x00
0x7F
0x7F
1.7 Considere la siguiente representación de punto flotante de 8 bits basada en el estándar IEEE-754:
El bit más significativo es el bit de signo
Los 3 bits siguientes son el exponente E, que se almacena como
e+3
Los últimos 4 bits son la mantisa M.
El valor del número se codifica como V = (−1)s × 1.M × 2E .
Siguiendo reglas de representación similares a IEEE-754, indique las
representaciones binarias de los siguientes números:
a) −0
b) El mayor número positivo normalizado
c) El menor número negativo denormalizado
6
Capítulo 1: Representación digital de información
d) ∞
e) 1
f ) NotANumber
Además, indique qué valores son representados por las siguientes secuencias de bits:
a) 0 100 0101
b) 1 010 0110
c) 0 111 1110
d) 1 000 0000
Solución
Número
−0
Mayor número positivo normalizado
Menor número negativo denormalizado
∞
1
NotANumber
Signo
Exponente
Mantisa
1
0
1
0
0
0
000
110
000
111
011
111
0000
1111
0001
0000
0000
0001
a) 0 100 0101 = 2.625
b) 1 010 0110 = 0.6875
c) 0 111 1110 = NotANumber
d) 1 000 1111 = −0.1171875
1.8 La función clasifica_float() recibe como argumento un número de
precisión simple de formato IEEE-754, y debe clasificarlo. Para ello,
complete el código siguiente.
void clasifica_float(float f)
{
// unsigned u tiene el mismo patron de bits que f
unsigned u = *(unsigned *) &f;
// Identifica las partes de f
int signo = u >> 31;
// Bit de signo
Capítulo 1: Representación digital de información
int exp = ________________________;
int frac = _______________________;
// Expresiones siguientes dependen de signo, exp y frac
if (___________________________)
printf("Cero positivo o negativo\n");
else if (___________________________)
printf("Numero denormalizado\n");
else if (___________________________)
printf("Infinito positivo o negativo\n");
else if (___________________________)
printf("Not A Number\n");
else if (___________________________)
printf("Mayor que -1.0 y menor que 1.0\n");
else if (___________________________)
printf("Menor o igual a -1.0\n");
else
printf("Mayor o igual a 1.0\n");
}
Solución
El siguiente código implementa la función pedida.
void clasifica_float(float f)
{
// Unsigned u tiene el mismo patron de bits que float f
unsigned u = *(unsigned *) &f;
//*
int
int
int
Identifica las partes de f
signo = u >> 31;
exp = (u >> 23) & 0xFF;
frac = u & 0x7FFFFF;
// Expresiones siguientes dependen de signo, exp y frac
if (exp == 0x00 && frac == 0x00)
printf("Cero positivo o negativo\n");
else if (exp == 0x00 && frac != 0x00)
printf("Numero denormalizado\n");
else if (exp == 0xFF && frac == 0x00)
printf("Infinito positivo o negativo\n");
else if (exp == 0xFF && frac != 0x00)
printf("Not A Number\n");
else if (exp < 0x7F)
printf("Mayor que -1.0 y menor que 1.0\n");
else if (exp >= 0x7F && signo == 0x01)
printf("Menor o igual a -1.0\n");
7
Capítulo 1: Representación digital de información
8
else
printf("Mayor o igual a 1.0\n");
}
1.9 Escriba una función en C llamada bool isLittleEndian(void) tal
que retorne true si es compilada y ejecutada en un procesador de arquitectura Little Endian, y que retorne false si es compilada y ejecutada en un procesador de arquitectura Big Endian.
Solución
El siguiente código muestra una posible solución.
bool isLittleEndian(void)
{
int x = 0x00000001;
char *p = &x;
return (*p == 1);
}
1.10 Suponga que existen dos formatos de representación de números de
punto flotante de 9 bits similares al estándar IEEE. Éstos son:
Formato A :
1 bit de signo s
5 bits de exponente e, el que se almacena como e + 15
3 bits de mantisa m
Formato B :
1 bit de signo s
4 bits de exponente e, el que se almacena como e + 7
4 bits de mantisa m
a) Para ambos formatos, indique el patrón de bits correspondiente a
1)
2)
3)
4)
5)
el mayor número positivo normalizado
el menor número positivo normalizado
el menor número positivo denormalizado
uno
infinito positivo
b) La siguiente tabla muestra 5 patrones de bit en formato A. Para
cada uno, indique:
9
Capítulo 1: Representación digital de información
1) Su valor, ya sea como entero, potencia o expresado como fracción
2) El patrón equivalente en formato B
3) El valor del patrón en formato B
Es posible que en algún caso, Ud. no pueda representar exactamente el valor pedido en formato B. En ese caso, aproxime siempre
su resultado hacia +∞.
Formato A
Bits
Valor
s
e m
1 01111 001
0 10110 011
1 00111 010
0 00000 111
1 11100 000
0 10111 100
Formato B
Bits
Valor
s
e
m
Solución
a) La siguiente tabla muestra los patrones de bits solicitados y los
valores asociados.
Mayor número pos. normalizado
Menor número pos. normalizado
Menor número pos. denormalizado
Uno
Infinito positivo
Mayor número pos. normalizado
Menor número pos. normalizado
Menor número pos. denormalizado
Uno
Infinito positivo
Formato A
Valor
0 11110 111
0 00001 000
0 00000 001
0 01111 000
0 11111 000
(2 − 2−3 )215
2−14
2−17
+1.0
+∞
Formato B
Valor
0 1110 1111
0 0001 0000
0 0000 0001
0 0111 0000
0 1111 0000
(2 − 2−4 )27
2−6
2−10
+1.0
+∞
10
Capítulo 1: Representación digital de información
b) La siguiente tabla muestra los valores y patrones de bits solicitados. En la tercera línea, es necesario convertir un número normalizado en formato A a un número denormalizado en formato
B. Asimismo, las líneas 4 y 5 requieren aproximar el resultado en
formato B hacia +∞.
Formato A
Bits
Valor
1 01111 001
0 10110 011
1 00111 010
0 00000 111
1 11100 000
0 10111 100
− 98
176
5
− 1024
7 × 2−17
-8192
384
Formato B
Bits
Valor
1 0111 0010
0 1110 0110
1 0000 0101
0 0000 0001
1 1110 1111
0 1111 0000
− 98
176
5
− 1024
2−10
−248
+∞
Capítulo
Ensamblador Intel x86 y
lenguaje C
2.1 La función void decode1(int *xp, int *yp, int *zp) es compilada al siguiente código ensamblador.
movl
movl
movl
movl
movl
movl
movl
movl
movl
8(%ebp), %edi
12(%ebp), %ebx
16(%ebp), %esi
(%edi), %eax
(%ebx), %edx
(%esi), %ecx
%eax, (%ebx)
%edx, (%esi)
%ecx, (%edi)
Los parámetros xp, yp y zp están almacenados a 8, 12 y 16 bytes de la
dirección de memoria apuntada por %ebp. Escriba el código C equivalente al código ensamblador mostrado.
Solución
El siguiente código muestra una posible solución.
void decode1(int *xp, int *yp, int *zp)
{
int tx = *xp;
int ty = *yp;
int tz = *zp;
11
2
Capítulo 2: Ensamblador Intel x86 y lenguaje C
12
*yp = tx;
*zp = ty;
*xp = tz;
}
2.2 El lenguaje ensamblador Intel x86 posee la instrucción leal s, d, que
almacena en la dirección destino d la dirección efectiva calculada para
la dirección fuente s. Esta instrucción puede ser utilizada para realizar
cálculos de la forma a << k + b, donde k puede tomar valores 1, 2 o 3.
Indique todos los posibles múltiplos del registro %eax que pueden almacenarse en el registro %edx utilizando esta instrucción, mostrando el
formato de la instrucción leal s, d para cada uno.
Solución
Los múltiplos del registro %eax que se pueden calcular con la instrucción leal s, d se muestran en la siguiente tabla.
Instrucción
leal
leal
leal
leal
leal
leal
leal
(%eax), %edx
(%eax, %eax), %edx
(%eax, %eax, 2), %edx
(,%eax, 4), %edx
(%eax, %eax, 4), %edx
(,%eax, 8), %edx
(%eax, %eax, 8), %edx
Acción
%edx ← %eax
%edx ← 2%eax
%edx ← 3%eax
%edx ← 4%eax
%edx ← 5%eax
%edx ← 8%eax
%edx ← 9%eax
2.3 Sea el siguiente código ensamblador X86:
pushl %ebp
movl %esp, %ebp
movl 8(%ebp), %edx
movl 12(%ebp), %eax
movl %ebp, %esp
movl (%edx), %edx
addl %edx, (%eax)
movl %edx, %eax
popl %ebp
ret
Rellene el siguiente fragmento de código C para que sea equivalente al
código ensamblador anterior.
Capítulo 2: Ensamblador Intel x86 y lenguaje C
13
int fun(int *ap, int *bp) {
______ = ______;
______ = ______;
return ______;
}
Solución
El siguiente código C es equivalente al código ensamblador X86 mostrado.
int fun(int *ap, int *bp)
{
int temp = *ap;
*bp += *ap;
return temp;
}
2.4 El siguiente código C
int dw_loop(int x, int y, int n)
{
do {
x += n;
y *= n;
n--;
} while ((n > 0) & (y < n));
return x;
}
es traducido al siguiente código ensamblador, donde las variables x, y
y n están a 8, 12 y 16 bytes de (%ebp), respectivamente.
movl 8(%ebp), %esi
movl 12(%ebp), %ebx
movl 16(%ebp), %ecx
.L6: imull %ecx, %ebx
addl %ecx, %esi
decl %ecx
testl %ecx, %ecx
setg %al
cmpl %ecx, %ebx
setl %dl
andl %edx, %eax
Capítulo 2: Ensamblador Intel x86 y lenguaje C
14
testb $1, %al
jne .L6
a) Genere una tabla de uso de registros
b) Comente el código ensamblador
c) Identifique la condición y el cuerpo del ciclo do-while() y las líneas correspondientes del código ensamblador.
Solución
a) La tabla de registros es
Registro
Variable
Valor Inicial
%esi
%ebx
%ecx
x
y
n
x
y
n
b) El código ensamblador comentado es
movl 8(%ebp), %esi
movl 12(%ebp), %ebx
movl 16(%ebp), %ecx
.L6: imull %ecx, %ebx
addl %ecx, %esi
decl %ecx
testl %ecx, %ecx
setg %al
cmpl %ecx, %ebx
setl %dl
andl %edx, %eax
testb $1, %al
jne .L6
//
//
//
//
//
//
//
//
//
//
//
//
//
Almacena x en %esi
Almacena y en %ebx
Almacena n en %ecx
y *= n
x += n
n-Test n
n > 0
Compara y y n
y < n
(n > 0) & (y < n)
Test LSB
If != 0, ir a lazo
El compilador reconoce que las condiciones (n > 0) y (y < n) se
evalúan sólo a 0 o 1, y que entonces sólo es necesario examinar
el bit menos significativo del resultado para saber el valor de la
condición compuesta.
c) El cuerpo del ciclo está en las líneas 4 a 6 del código C y en las
líneas 6 a 8 del código ensamblador. La condición a evaluar está
en la línea 7 del código C y en las líneas 9 a 14 del código ensamblador.
Capítulo 2: Ensamblador Intel x86 y lenguaje C
15
2.5 En el siguiente código C, se han omitido los operadores de comparación
y los tipos de datos de los cast.
char ctest(int a, int b,
{
char t1 =
a
char t2 =
b
char t3 = (
) c
char t4 = (
) a
char t5 =
c
char t6 =
a
int c)
__
__ (
__ (
__ (
__
__
b;
) a;
) a;
) c;
b;
0;
return t1 + t2 + t3 + t4 + t5 + t6;
}
A partir de ese código, el compilador C genera el siguiente código ensamblador:
movl 8(%ebp), %ecx
movl 12(%ebp), %esi
cmpl %esi, %ecx
setl %al
cmpl %ecx, %esi
setb -1(%ebp)
cmpw %cx, 16(%ebp)
setge -2(%ebp)
movb %cl,%dl
cmpb 16(%ebp),%dl
setne %bl
cmpl %esi, 16(%ebp)
setg -3(%ebp)
testl %ecx, %ecx
setg %dl
addb -1(%ebp),%al
addb -2(%ebp),%al
addb %bl, %al
addb -3(%ebp),%al
addb %dl, %al
movsbl %al, %eax
Suponga que las variables a, b y c están a 8, 12 y 16 bytes de (%ebp),
respectivamente. Indique las partes faltantes del código C.
Solución
Un posible código C equivalente es:
Capítulo 2: Ensamblador Intel x86 y lenguaje C
char ctest(int a, int b, int c)
{
char t1 =
a <
char t2 =
b < (unsigned)
char t3 = (short) c >=
(short)
char t4 = (char) a !=
(char)
char t5 =
c >
char t6 =
a >
16
b;
a;
a;
c;
b;
0;
return t1 + t2 + t3 + t4 + t5 + t6;
}
2.6 Sea el siguiente programa en C:
unsigned int c, v;
for (c = 0; v; c++) {
v &= (v - 1);
}
a) Identifique qué hace este programa.
b) Escriba código en ensamblador Intel X86 de 32 bits equivalente.
Suponga que el registro %ecx contiene la variable c, y que el registro %ebx contiene la variable v. Su código debe retornar el resultado en el registro %eax.
Solución
a) El programa cuenta el número de bits en 1 del argumento v.
b) A continuación, se muestra un programa en ensamblador que realiza la misma función.
xorl %ecx, %ecx
cmpl $0, %ebx
je fin
lazo:
movl %ebx,
decl %eax
incl %ecx
andl %eax, %ebx
jnz lazo
movl %ecx, %eax
# Hace 0 el contador c
# Si v = 0, ir a fin
%eax
# Calcula v - 1
# Incrementa el contador
# Calcula v = v&(v - 1)
# Si no es 0, repetir
# Retorna c en %eax
Capítulo 2: Ensamblador Intel x86 y lenguaje C
17
2.7 Considere el siguiente código ensamblador:
lazo: pushl %ebp
movl %esp, %ebp
movl 8(%ebp), %ecx
movl 12(%ebp), %edx
xorl %eax, %eax
cmpl %edx, %ecx
jle Fin
Otro: decl %ecx
incl %edx
incl %eax
cmpl %edx, %ecx
jg Otro
Fin:
incl %eax
leave
ret
Se sabe que el código anterior corresponde a un código C de la forma:
int lazo(int x, int y) {
int result;
for(________; ________; result++) {
________;
________;
}
________;
return result;
}
Reescriba el código C anterior, rellenando las líneas indicadas. Utilice
sólo las variables x, y y result. No utilice los nombres de los registros!
Solución
Para analizar el código ensamblador, comenzaremos por comentarlo:
lazo: pushl %ebp
movl %esp, %ebp
movl 8(%ebp), %ecx
movl 12(%ebp), %edx
xorl %eax, %eax
cmpl %edx, %ecx
#
#
#
#
Lee x en %ecx
Lee y en %edx
result en %eax es igual a 0
Compara x con y (x - y)
Capítulo 2: Ensamblador Intel x86 y lenguaje C
jle Fin
# Salta si x es <= a y
Otro: decl %ecx
incl %edx
incl %eax
cmpl %edx, %ecx
jg Otro
#
#
#
#
#
Fin:
# Incrementa result
incl %eax
leave
ret
18
Decrementa x
Incrementa y
Incrementa result
Compara x con y (x - y)
Repite si x > y
Dado que la convención de paso de parámetros de C dice que éstos se
pasan a través de la pila de derecha a izquierda, es claro que x está en
la posición -8(%ebp) y que y está en la posición -12(%ebp). Entonces,
se puede ver que el código C equivalente es:
int lazo(int x, int y) {
int result;
for(result = 0; x > y; result++) {
x--;
y++;
}
result++;
return result;
}
2.8 Considere el siguiente código C, donde M y N son constantes definidas
con #define en alguna parte del código.
int mat1[M][N];
int mat2[N][M];
int sumaElementos(int i, int j)
{
return mat1[i][j] + mat2[i][j];
}
Ese código C genera el siguiente código en lenguaje de ensamblador.
Suponga que el argumento i está en 8(%ebp), y que el argumento j
está en 12(%ebp). Suponga además que mat1 y mat2 corresponden a las
direcciones iniciales en memoria de las matrices correspondientes.
Capítulo 2: Ensamblador Intel x86 y lenguaje C
sumaElementos:
19
pushl %ebp
movl %esp, %ebp
movl 8(%ebp), %eax
movl 12(%ebp), %ecx
sall $2, %ecx
leal 0(, %eax, 8), %edx
subl %eax, %edx
leal (%eax, %eax, 4), %eax
movl mat2(%ecx, %eax, 4), %eax
addl mat1(%ecx, %edx, 4), %eax
leave
ret
Cuáles son los valores de M y N ?
Solución
A continuación, se muestra el código ensamblador comentado.
1
2
3
4
5
6
7
8
9
10
11
12
pushl %ebp
movl %esp, %ebp
movl 8(%ebp), %eax
movl 12(%ebp), %ecx
sall $2, %ecx
leal 0(, %eax, 8), %edx
subl %eax, %edx
leal (%eax, %eax, 4), %eax
movl mat2(%ecx, %eax, 4), %eax
addl mat1(%ecx, %edx, 4), %eax
leave
ret
//
//
//
//
//
//
//
//
//
//
Almacena %ebp en la pila
Actualiza puntero base
%eax <- i
%ecx <- j
%ecx <- 4j
%edx <- 8i
%edx <- 8i - i = 7i
%eax <- 5*%eax = 5i
%eax <- M[mat2 + 4j + 20i]
%eax <- %eax*M[mat1 + 4j + 28i]
En las líneas 9 y 10, se accede a las posiciones mat1 + 28i + 4j y
mat2 + 20i + 4j. Dado que cada elemento de la matriz es un entero
de 32 bits, se deduce entonces que M = 5 y N = 7.
2.9 Considere el siguiente código C, donde M y N son constantes definidas
con #define en alguna parte del código.
int mat1[M][N];
int mat2[N][M];
int copiaElemento(int i, int j)
{
return mat1[i][j] = mat2[j][i];
}
Capítulo 2: Ensamblador Intel x86 y lenguaje C
20
Ese código C genera el siguiente código en lenguaje de ensamblador.
Recuerde que el lenguaje C almacena las matrices por filas. Suponga
que el argumento i está en 8( %ebp), y que el argumento j está en
12( %ebp). Suponga además que mat1 y mat2 corresponden a las direcciones iniciales en memoria de las matrices correspondientes.
copiaElemento:
pushl %ebp
movl %esp, %ebp
pushl %ebx
movl 8(%ebp), %ecx
movl 12(%ebp), %ebx
leal (%ecx,%ecx,8), %edx
sall $2, %edx
movl %ebx, %eax
sall $4, %eax
subl %ebx, %eax
sall $2, %eax
movl mat2(%eax, %ecx, 4), %eax
movl %eax, mat1(%edx, %ebx, 4)
popl %ebx
leave
ret
Cuáles son los valores de M y N ?
Solución
A continuación, se muestra el código ensamblador X86 comentado.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
pushl %ebp
pushl %ebx
movl 8(%ebp), %ecx
movl 12(%ebp), %ebx
leal (%ecx,%ecx,8), %edx
sall $2, %edx
movl %ebx, %eax
sall $4, %eax
subl %ebx, %eax
sall $2, %eax
movl mat2(%eax, %ecx, 4), %eax
movl %eax, mat1(%edx, %ebx, 4)
popl %ebx
leave
ret
//
//
//
//
//
//
//
//
//
//
//
//
//
//
Forma marco de activacion
Almacena %ebx en la pila
%ecx <- i
%ebx <- j
%edx <- 9i
%edx <- 4*9i
%eax <- j
%eax <- 16*j
%eax <- 15*j
%eax <- 4*15j
%eax <- M[mat2 + 4*(15*j + i)]
M[mat1 + 4*(9*i + j)] <- %eax
Recupera %ebx de la pila
Elimina marco de activacion
Capítulo 2: Ensamblador Intel x86 y lenguaje C
21
De estudiar los códigos ensamblador y en lenguaje C, se ve que en
las líneas 11 y 12 se accede a las posiciones mat2 + 4(15*j + i) y
mat1 + 4*(9*i + j). Dado que cada elemento de la matriz es un entero de 32 bits, se tiene que M = 15 y N = 9.
2.10 El producto punto de vectores es una operación de reducción que opera
sobre dos vectores de la forma que se indica:
a • b = a1 b1 + a2 b2 + . . . + an−1 bn−1 + an bn
La función int productoPunto(int A[], int B[], int n) en lenguaje C retorna el producto punto de dos vectores A y B de largo n.
int productoPunto(int A[], int B[], int n)
{
int i;
int suma = 0;
for (i = 0; i < n; i++)
suma += A[i]*B[i];
return suma;
}
Escriba una función en lenguaje ensamblador equivalente.
Solución
Primero, debemos transformar el código C a una forma más apropiada
para su implementación en lenguaje ensamblador. Es decir, transformar el ciclo for a un ciclo while, y transformar los accesos a vector vía
índice a notación de punteros.
int productoPunto(int *A, int *B, int n)
{
int i = 0;
int suma = 0;
while (i < n)
{
suma = suma + *(A + 4*i) * *(B + 4*i);
i++;
}
return suma;
}
Luego, traducimos este código C a ensamblador, como se muestra a continuación.
Capítulo 2: Ensamblador Intel x86 y lenguaje C
productoPunto:
pushl %ebp
movl %esp, %ebp
pushl %esi
pushl %edi
xorl %edx, %edx
xorl %eax, %eax
movl 8(%ebp), %esi
movl 12(%ebp), %edi
Lazo:
cmpl %edx, 16(%ebp)
je Fin
movl (%esi, %edx, 4), %ecx
imull (%edi, %edx, 4), %ecx
addl %ecx, %eax
incl %edx
jmp Lazo
Fin:
popl %edi
popl %esi
leave
ret
22
// Prepara la pila
//
//
//
//
//
//
Almacena registro %esi
Almacena registro %edi
i <- 0
suma <- 0
%esi <- A
%edi <- B
//
//
//
//
//
//
//
Compara n con i
Si son iguales, ir a Fin
%ecx <- *(A + 4*i)
%ecx <- *(B + 4*i)*%ecx
suma <- %ecx
i <- i + 1
Repetir
// Recupera registro %edi
// Recupera registro %esi
// Recupera valores de pila
2.11 El Máximo Común Divisor entre dos números puede calcularse recursivamente como se muestra a continuación:
int mcd(int m, int n)
{
if (n == 0)
return m;
if (m == 0)
return n;
mcd(n, m%n);
}
Escriba ahora una función equivalente en ensamblador.
Solución
Se muestra una posible solución. Como sólo hace uso del registro %eax
que es Caller Save y que no retiene valores importantes entre invocaciones recursivas, no es necesario salvarlo en la pila.
mcd:
pushl %ebp
movl %esp, %ebp
// Prepara la pila
Capítulo 2: Ensamblador Intel x86 y lenguaje C
cmpl $0, 12(%ebp)
jne SIGUE1
movl 8(%ebp), %eax
jmp FIN
SIGUE1:
cmpl $0, 8(%ebp)
jne SIGUE2
movl 12(%ebp), %eax
jmp FIN
SIGUE2:
movl 12(%ebp), %eax
ctld
idivl 8(%ebp)
pushl %edx
movl 12(%ebp), %eax
pushl %eax
call mcd
FIN:
leave
ret
23
// Compara n con 0
// Si n == 0, retornar m
// Compara m con 0
// Si m == 0, retornar n
// %eax <- n
// Extiende m a 64 bits
// Calcula m/n
// m%n se agrega a la pila
// %eax <- n
// Agrega n a la pila
2.12 Sea la matriz A de dimensiones 3 ∗ 3, como se muestra:


 a b c 


A =  d e f 


g h i
El determinante |A| de dicha matriz está dado por |A| = aei − af h − bdi +
bf g + cdh − ceg.
Escriba una función en ensamblador Intel x86 det3x3(int A[][3])
que reciba como argumento la dirección inicial de la matriz en 8(%ebp)
y retorne el determinante de dicha matriz en el registro %eax. Suponga
además que el rango de los elementos de A es tal que le basta con usar
la operación de multiplicación imull S, D.
Solución
Se muestra un posible código ensamblador para la función pedida.
det3x3:
pushl %ebp
movl %esp, %ebp
pushl %ebx
movl 8(%ebp), %ebx
movl 16(%ebx), %ecx
imull 32(%ebx), %ecx
// Prepara la pila
//
//
//
//
Almacena registro %ebx en pila
Lee direccion de matriz A
Lee valor e en %ecx
Calcula ei
Capítulo 2: Ensamblador Intel x86 y lenguaje C
movl 20(%ebx), %edx
imull 28(%ebx), %edx
subl %edx, %ecx
imull (%ebx), %ecx
movl %ecx, %eax
//
//
//
//
//
Lee valor f en %edx
Calcula fh
Calcula ei - fh
Calcula a(ei - fh)
Acumula resultado en %eax
movl 20(%ebx), %ecx
imull 24(%ebx), %ecx
movl 12(%ebx), %edx
imull 32(%ebx), %edx
subl %edx, %ecx
imull 4(%ebx), %ecx
addl %ecx, %eax
//
//
//
//
//
//
//
Lee valor f en %ecx
Calcula fg
Lee valor d en %edx
Calcula di
Calcula fg - di
Calcula b(fg - di)
Acumula resultado en %eax
movl 12(%ebx), %ecx
imull 28(%ebx), %ecx
movl 16(%ebx), %edx
imull 24(%ebx), %edx
subl %edx, %ecx
imull 8(%ebx), %ecx
addl %ecx, %eax
//
//
//
//
//
//
//
Lee valor d en %ecx
Calcula dh
Lee valor e en %edx
Calcula eg
Calcula dh - eg
Calcula c(dh - eg)
Acumula resultado en %eax
popl %ebx
leave
ret
// Recupera valor de %ebx
24
2.13 Suponga que los 4 bytes de un entero int de 32 bits se numeran desde
el menos significativo (0) al más significativo (3).
a) Escriba una función en C unsigned int reemplazaByte(unsigned
int x, unsigned int i, unsigned char b) que reemplace el iésimo byte del entero x por el byte b dado. Por ejemplo, escribir reemplazaByte(0x12345678, 2, 0xAB) deberá retornar el entero 0x12AB5678, mientras que reemplazaByte(0x12345678, 0,
0xAB) deberá retornar el entero 0x123456AB.
b) Escriba ahora una función equivalente en lenguaje ensamblador
x86. Recuerde que la convención de paso de argumentos de C establece que éstos se almacenan en la pila de derecha a izquierda.
No olvide respetar las convenciones Caller-Save y Callee-Save.
Solución
a) El siguiente código C implementa la función pedida. Se utiliza una
máscara para anular los bits a reemplazar, y luego se suma el nuevo byte, desplazado i bytes a la izquierda.
Capítulo 2: Ensamblador Intel x86 y lenguaje C
25
unsigned int
reemplazaBytes(unsigned int x, unsigned int i,
unsigned char b) {
unsigned int mascara = 0xFF << (i*8);
return (x & ~mascara) | (b << (i*8));
}
b) El siguiente código ensamblador implementa la función pedida.
Para acceder al byte a modificar, se utiliza la variable i como un
desplazamiento dentro de la copia del entero x que está en la pila.
Luego, esta versión modificada de x se lee al registro %eax para ser
usado como valor de retorno. Como los únicos registros utilizados
son %eax y %ecx, y éstos son Caller-Save, no es necesario almacenarlos en la pila.
pushl %ebp
movl %esp, %ebp
movb 16(%ebp), %al
movl 12(%ebp), %ecx
movb %al, 8(%ebp, %ecx)
movl 8(%ebp), %eax
leave
ret
# Crea marco de activacion
#
#
#
#
#
Lee byte b a en %al
Lee i
b -> i-esimo byte de x
Lee valor modificado
como valor de retorno
2.14 Se desea obtener la traspuesta de una matriz cuadrada M de dimensiones N × N . Para ello, Ud. debe realizar las siguientes tareas:
a) Primero, escriba una función void swap(int *a, int *b) en C
que intercambie los contenidos de dos punteros a enteros.
b) Luego, escriba esta función en lenguaje de ensamblador x86. Recuerde que la convención de paso de argumentos de C establece
que éstos se almacenan en la pila de derecha a izquierda. No olvide respetar las convenciones Caller-Save y Callee-Save.
c) Luego, escriba una función en C llamada void traspuesta(int
*M, int N) que recibe dos argumentos. El primero es un puntero
a un vector de N 2 enteros, utilizado para simular el acceso a una
matriz de N × N enteros, tal como se vió en clases. El segundo
argumento es la dimensión de la matriz. Su función debe utilizar
la función swap() escrita anteriormente.
d) Implemente ahora esta función en lenguaje ensamblador x86.
Capítulo 2: Ensamblador Intel x86 y lenguaje C
26
Solución
a) El siguiente código C implementa la función deseada. No es la
implementación más eficiente, pero refleja la implementación en
lenguaje ensamblador que se muestra a continuación.
void swap(int *a, int *b) {
int aTemp = *a;
int bTemp = *b;
*a = bTemp;
*b = aTemp;
}
b) El siguiente código ensamblador implementa la función swap()}
del punto anterior. Utiliza el registro %ebx, el cual es Callee-Save.
Por ello, el valor de este registro se almacena en la pila al comienzo
de la función y se recupera al final.
pushl %ebp
movl %esp, %ebp
pushl %ebx
movl 8(%ebp), %eax
movl 12(%ebp), %edx
movl (%eax), %ecx
movl (%edx), %ebx
movl %ecx, (%edx)
movl %ebx, (%eax)
popl %ebx
leave
ret
# Crea marco de activacion
#
#
#
#
#
#
#
#
Almacena registro %ebx
Lee a al registro %eax
Lee b al registro %edx
Lee *a al registro %ecx
Lee *b al registro %ebx
Escribe *a a puntero b
Escribe *b a puntero a
Recupera registro %ebx
c) A continuación, se muestra una implementación en C de la función traspuesta() solicitada.
void traspuesta(int *M, int N) {
int i, j;
for (i = 0; i < N; i++) {
for (j = 0; j < i; j++) {
swap(&M[i*N + j], &M[j*N + i]);
}
}
}
d) El siguiente código muestra una posible implementación en lenguaje ensamblador de esta función.
Capítulo 2: Ensamblador Intel x86 y lenguaje C
pushl %ebp
movl %esp, %ebp
xorl %eax, %eax
lazo1: xorl %ecx, %ecx
lazo2: movl 12(%ebp), %edx
mull %ecx, %edx
addl %eax, %edx
sall $2, %edx
addl 8(%ebp), %edx
pushl %edx
movl 12(%ebp), %edx
mull %eax, %edx
addl %ecx, %edx
sall $2, %edx
addl 8(%ebp), %edx
pushl %edx
call swap
addl $8, %esp
incl %ecx
cmpl %ecx, %eax
jl lazo2
incl %eax
cmpl %eax, 12(%ebp)
jl lazo1
leave
ret
27
# Crea marco de activacion
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
Hace i igual a 0
Hace j igual a 0
Lee N
Multiplica j*N
Calcula j*N + i
Multiplica 4*(j*N + i)
Calcula M + 4*(j*N + i)
Empila M + 4*(j*N + i)
Lee N
Multiplica i*N
Calcula i*N + j
Multiplica 4*(i*N + j)
Calcula M + 4*i*N + j)
Empila M + 4*(i*N + j)
Invoca a funcion swap()
Recupera posicion
Incrementa j
Compara j con i (i - j)
Si j < i, ir a lazo2
Incrementa i
Compara i con N (N - i)
2.15 Escriba una función unsigned int unosConsecutivos(unsigned int
x) en lenguaje ensamblador que retorne el largo de la máxima secuencia de 1s consecutivos presentes en el argumento x. Es decir, si el argumento es 0xDBFF1F1C, la función debe retornar 10. No olvide respetar las convenciones Caller-Save y Callee-Save en su código. Sugerencia:
piense en cómo escribiría esta función en C antes de comenzar a programar en ensamblador.
Solución
El siguiente código muestra una posible implementación de la función
deseada en lenguaje de programación C.
unsigned int UnosConsecutivos(unsigned int x)
{
int maxContador = 0;
// Largo de maxima secuencia
int contador = 0;
// Contador de unos
while (x != 0) {
if ((signed int) x < 0) {
Capítulo 2: Ensamblador Intel x86 y lenguaje C
28
contador++;
if (maxContador < contador)
maxContador = contador;
}
else
contador = 0;
x = x << 1;
}
return maxContador;
}
A su vez, el siguiente código muestra una implementación de la función
anterior en lenguaje de ensamblador x86.
unosconsecutivos:
pushl %ebp
movl %esp, %ebp
movl 8(%ebp), %ecx
xorl %eax, %eax
xorl %edx, %edx
#
#
#
#
#
Almacena puntero base en la pila
Redefine el puntero base
Lee el argumento x a %ecx
Hace 0 %eax (maxContador)
Hace 0 %edx (contador)
lazo:
cmpl $0, %ecx
# Compara x con 0
jz fin
# si x es cero, va a fin
jns pos
# Salta si x es positivo
incl %edx
# Si es negativo, contador++
cmpl %edx, %eax
# Compara maxContador y contador
jge shift
# Sigue si maxContador >= contador
movl %edx, %eax
# Actualiza valor de maxContador
jmp shift
shift: sall $1, %ecx
# Desplaza x un bit a la izquierda
jmp lazo
pos:
xorl %edx, %edx # Limpia el contador
jmp shift
# Si i es 0, ir al fin
fin:
movl %ebp, %esp # Recupera valores de %ebp y %esp
popl %ebp
ret
2.16 Sea la siguiente función switcher en lenguaje C, que utiliza un comando switch.
int switcher(int a, int b, int c)
{
int result;
switch(a) {
case ________________: /* Caso A */
Capítulo 2: Ensamblador Intel x86 y lenguaje C
c = ________________;
case ________________: /* Caso
result = ________________;
break;
case ________________: /* Caso
case ________________: /* Caso
result = ________________;
break;
case ________________: /* Caso
result = ________________;
break;
default:
result = ________________;
29
B */
C */
D */
E */
}
return result;
}
Esta función es traducida en lenguaje ensamblador como se muestra a
continuación:
# Codigo de funcion switcher()
# Suponga a en %ebp + 8, b en %ebp + 12, c en %ebp + 16
movl 8(%ebp), %eax
cmpl $7, %eax
ja .L2
jmp *.L7(, %eax, 4)
.L2:
movl 12(%ebp), %eax
jmp .L8
.L5:
movl $4, %eax
jmp .L8
.L6:
movl 12(%ebp), %eax
xorl $15, %eax
movl %eax, 16(%ebp)
.L3:
movl %16(%ebp), %eax
addl $112, %eax
jmp .L8
.L4:
movl 16(%ebp), %eax
addl 12(%ebp), %eax
sall $2, %eax
.L8:
# Tabla de saltos
.L7:
.long .L3
.long .L2
.long .L4
.long .L2
.long .L5
.long .L6
Capítulo 2: Ensamblador Intel x86 y lenguaje C
30
.long .L2
.long .L4
Complete entonces la función switcher mostrada.
Solución
El siguiente código implementa la función pedida.
int switcher(int a, int b, int c)
{
int result;
switch(a) {
case 5: /* Caso A */
c = b^15;
case 0: /* Caso B */
result = c + 112;
break;
case 2: /* Caso C */
case 7: /* Caso D */
result = 4*(b + c);
break;
case 4: /* Caso E */
result = 4;
break;
default:
result = b;
}
return result;
}
2.17 Uno de los problemas intrínsecos de la representación de enteros en un
número finito de bits es la ocurrencia de rebalses.
a) Escriba, entonces, una función en C llamada sePuedenSumar(int
x, int y) que retorne 1 si los enteros con signo de 32 bits x e y se
pueden sumar sin posibilidad de rebalse, y 0 en caso contrario.
b) Escriba ahora código en ensamblador Intel X86 de 32 bits equivalente. Suponga que el registro %ecx contiene la variable x, y que
el registro %ebx contiene la variable y. Su código debe retornar el
resultado 0 ó 1 en el registro %eax.
Solución
Para determinar si dos números enteros se pueden sumar sin que ocurra un error de representación, una técnica sencilla es realizar la suma
Capítulo 2: Ensamblador Intel x86 y lenguaje C
31
y ver el signo del resultado: si la suma de dos números positivos da un
resultado negativo, entonces ocurrió un rebalse. Asimismo, si la suma
de dos números negativos da un resultado positivo, entonces ocurrió
un rebalse. La suma de un número positivo y un número negativo no
puede dar un rebalse.
a) El siguiente código C implementa lo solicitado.
bool sePuedenSumar(int x, int y) {
int suma = x + y;
int rebalse_neg = x < 0 && y < 0 && suma >= 0;
int rebalse_pos = x >= 0 && y >= 0 && suma < 0;
return !rebalse_pos && rebalse_neg;
}
b) El siguiente código Intel x86 implementa lo solicitado.
movl $1, %eax
movl %ecx, %esi
movl %ebx, %edi
xorl %esi, %edi
js fin
addl %ebx, %esi
js sum_neg
testl %ecx, %ecx
js fin_no
jmp fin
sum_neg:testl %ecx, %ecx
jns fin_no
jmp fin
fin_no: xorl %eax, %eax
fin:
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
Hace 1 el registro de resultado %eax
Copia x en %esi
Copia y en %edi
Calcula x XOR y
Si < 0, x e y tienen distinto signo
Calcula suma = x + y
Salta si la suma es negativa
Si x < 0 e y < 0 y la suma
es positiva, no se pueden sumar
Si x < 0 e y < 0, no se pueden sumar
Si x >= 0 e y >= 0, y suma es negativa
entonces no se pueden sumar
En caso contrario, se pueden sumar
Hace 0 el registro resultado %eax
Fin del codigo solicitado
2.18 Escriba una función void invierteRistra(char *cp, unsigned int
n) en lenguaje ensamblador que reciba como argumentos un puntero
a una ristra de C y el número de caracteres de ésta, y que invierta esta
ristra in situ, es decir, en las mismas direcciones de memoria. Suponga que los argumentos a la función están almacenados en 8( %ebp) y
12( %ebp), respectivamente. No olvide respetar las convenciones CallerSave y Callee-Save en su código. Sugerencia: piense en cómo escribiría
esta función en C antes de comenzar a programar en ensamblador.
Solución
El siguiente código de ensamblador X86 muestra una posible solución.
Capítulo 2: Ensamblador Intel x86 y lenguaje C
32
.type invierteRistra, @function
invierteRistra:
pushl %ebp
# Almacena puntero base en la pila
movl %esp, %ebp
# Redefine el puntero base
movl 8(%ebp), %eax # Lee direccion de ristra en %eax
movl 12(%ebp), %edx # Lee el largo de la ristra en %edx
addl %eax, %edx
# Calcula posicion del ultimo
subl $1, %edx
# caracter de la ristra
lazo1:
cmpl %eax, %edx
# Compara puntero con el final
js finLazo1
# de la ristra y salta si es menor
movb (%eax), %ch
# Intercambia caracteres de ristra
movb (%edx), %cl
# utilizando registros intermedios
movb %ch, (%edx)
movb %cl, (%eax)
incl %eax
# Incrementa puntero a ristra en 1
decl %edx
# Decrementa fin de ristra en 1
jmp lazo1
finLazo1:
leave
ret
2.19 Complete el siguiente código C en base al código ensamblador generado.
int funcion(int x, int n)
{
int result = x;
switch(n) {
// Aqui falta el codigo que Ud. debe escribir
}
return result;
}
El código ensamblador Intel x86 generado se muestra a continuación,
donde la columna de la izquierda indica la dirección en memoria de
cada instrucción. Asimismo, la tabla de saltos está almacenada a partir
de la dirección de memoria 2000.
1000:
1001:
1003:
1006:
1009:
pushl %ebp
movl %esp, %ebp
movl 8(%ebp), %eax
movl 12(%ebp), %edx
subl $50, %edx
Capítulo 2: Ensamblador Intel x86 y lenguaje C
33
1012:
cmpl $5, %edx
1015:
ja 1040
1017:
jmp *2000(, %edx, 4)
1024:
shll $2, %eax
1027:
jmp 1043
1029:
sarl $2, %eax
1032:
jmp 1043
1034:
leal (%eax, %eax, 2), %eax
1037:
imull %eax, %eax
1040:
addl $10, %eax
1043:
popl %ebp
1044:
ret
. . . . . . . .
2000:
1024
2004:
1040
2008:
1024
2012:
1029
2016:
1034
2020:
1037
Solución
El siguiente código muestra una implementación que cumple con lo
solicitado.
int funcion(int x, int n)
{
int result = x;
switch(n) {
case 50:
case 52:
result <<= 2;
break;
case 53:
result >>= 2;
break;
case 54:
result *= 3;
case 55:
result *= result;
default:
result += 10;
}
return result;
}
Capítulo 2: Ensamblador Intel x86 y lenguaje C
34
2.20 La función 91 es una función recursiva creada por John McCarthy que
tiene la particularidad que se evalúa a 91 para todos los enteros n ≤ 100,
y es igual a n − 10 para n ≥ 101. Su implementación en C es como sigue:
int f91(int n) {
if (n > 100)
return n - 10;
else
return f91(f91(n + 11));
}
Escriba esta función recursiva en lenguaje ensamblador X86. Suponga,
como de costumbre, que esta función recibe un argumento entero en la
pila, y que retorna su valor en el registro %eax.
Solución
El siguiente código muestra una posible implementación.
.type f91, @function
f91:
pushl %ebp
#
movl %esp, %ebp
#
movl 8(%ebp), %eax #
cmpl $100, %eax
#
jg fin_f91
#
addl $11, %eax
#
pushl %eax
#
call f91
#
popl %ebx
#
pushl %eax
#
call f91
#
popl %ebx
#
jmp fin2
fin_f91:
subl $10, %eax
#
fin2:
movl %ebp, %esp
#
popl %ebp
ret
Almacena puntero base en la pila
Redefine el puntero base
Lee el argumento al registro %eax
Compara argumento con 100
Si es 1, terminar
En otro caso, incrementar %eax en 10
Almacena en la pila
Llama a f91
Extrae argumento de la pila
Almacena nuevo argumento en la pila
Llama a f91 de nuevo
Extrae argumento de la pila
Si n es > 100, retorna n - 10
Recupera valores de %ebp y %esp
Capítulo
Procesador Y86
3.1 El algoritmo recursivo de Dijkstra para calcular el máximo común divisor puede escribirse como:


m,
if m = n



mcd(m
−
n,
n),
if
(m > n)
mcd(m, n) = 


 mcd(m, n − m), en otro caso
Recuerde que el máximo común divisor entre dos números enteros positivos n y m es el mayor entero d que divide exactamente tanto n como
m, es decir, m mod d = n mod d = 0.
Escriba una función en int mcd(int m, int n) que implemente este algoritmo, y luego una versión en lenguaje ensamblador Y86. El siguiente código muestra un esqueleto que le puede servir como comienzo. Ejecute su código utilizando el simulador del procesador secuencial
para calcular mcd(18, 14), mostrando la salida del simulador secuencial estándar en modo texto.
# Ejecucion comienza en la direccion 0x00
.pos 0
init:
irmovl Pila, %esp
# define puntero a la pila
irmovl Pila, %ebp
# define puntero base
jmp Main
# ejecuta programa principal
Main:
irmovl $14, %eax
pushl %eax
irmovl $18, %eax
pushl %eax
#
#
#
#
%eax
n es
%eax
m es
35
vale 14
14
vale 18
18
3
36
Capítulo 3: Procesador Y86
call mcd
halt
# llama a mcd(18, 14)
# int mcd(int n, int m)
# INSERTE SU CODIGO AQUI
.pos 0x100
Pila:
# pila del programa comienza aqui
3.2 Sea la función recursiva SumaRec(int *dato, int cuenta), que suma cuenta enteros a partir de la posición dada dato, cuyo código C se
muestra a continuación. Escriba esta función en lenguaje ensamblador
Y86, y luego utilice esta función para calcular la suma de un vector de
8 elementos. Ejecute su código utilizando el simulador del procesador
secuencial.
int SumaRec(int *dato, int cuenta) {
if (cuenta == 1) {
return *dato;
}
return *dato + SumaRec(dato++, cuenta--);
}
El siguiente código muestra un esqueleto que le puede servir como comienzo.
# Ejecucion comienza en la direccion 0x00
.pos 0
init:
irmovl Pila, %esp
# define puntero a la pila
irmovl Pila, %ebp
# define puntero base
jmp Main
# ejecuta programa principal
# vector de elementos
.align 4
vector: .long 0x56ad
.long 0x1786
.long 0x3018
.long 0x0F41
.long 0x000c
.long 0x2918
.long 0x1004
.long 0x0F0F
Main:
irmovl $8, %eax
# %eax vale 8
37
Capítulo 3: Procesador Y86
pushl %eax
irmovl vector, %edx
pushl %edx
call SumaRec
halt
#
#
#
#
cuenta es 8
lee direccion de vector
dato es dir. vector
llama a SumaRec(vector, 8)
# int SumaRec(int *dato, int cuenta)
# INSERTE SU CODIGO AQUI
.pos 0x150
Pila:
# pila del programa comienza aqui
3.3 En los programas de ejemplo del procesador X86, se presenta la instrucción leave, y se indica que es equivalente a las instrucciones Y86
rrmovl %ebp, %esp y popl %ebp. Agregue esta instrucción al conjunto
de instrucciones del procesador Y86, usando la siguiente codificación.
0
D 0
1
2
3
4
5
Use la tabla para popl como guía.
Solución
La tabla de acciones para esta instrucción se muestra a continuación.
Etapa
Acciones
Fetch
iCode : iFun ← M1 [P C]
valP ← P C + 1
Decode
valA ← R[ %ebp]
valB ← R[ %ebp]
Execute
valE ← valB + 4
Memory
valM ← M4 [valA]
Write Back
R[ %esp] ← valE
R[ %ebp] ← valM
PC Update
P C ← valP
3.4 En los programas de ejemplo del procesador Y86, hay ocasiones en que
es necesario sumar un valor constante a un registro. Esto requiere usar
38
Capítulo 3: Procesador Y86
una instrucción irmovl para almacenar la constante en un registro, y
luego una instrucción addl para sumar su valor al registro destino.
Agregue entonces una instrucción iaddl con el siguiente formato:
0
C 0
1
8 rB
2
3
4
5
V
Esta instrucción suma la constante V al registro rB. Describa las computaciones necesarias para implementar la instrucción. Use la tabla para
irmovl y OP como guía.
Solución
La tabla de acciones para esta instrucción se muestra a continuación.
Etapa
Acciones
Fetch
iCode : iFun ← M1 [P C]
rA : rB ← M1 [P C + 1]
valC ← M4 [P C + 2]
valP ← P C + 6
Decode
valB ← R[rB]
Execute
valE ← valB + valC
Memory
Write Back
R[rB] ← valE
PC Update
P C ← valP
3.5 La función recursiva de Takeuchi fue inventada por Ikeo Takeuchi en
1978 para medir el desempeño de compiladores LISP, mientras trabajaba en los laboratorios de la Nippon Telephone and Telegraph Co. Esta
función está definida como sigue:
T (x, y, z) = if x ≤ y then y else T (T (x − 1, y, z), T (y − 1, z, x), T (z − 1, x, y))
Una posible implementación en lenguaje C es:
Capítulo 3: Procesador Y86
39
int takeuchi(int x, int y, int z)
{
if (x <= y)
return y;
else
return takeuchi(takeuchi(x - 1, y, z), takeuchi(y - 1, z, x),
takeuchi(z - 1, x, y));
}
La invocación de la función takeuchi() con argumentos (3, 2, 1) resulta
en 9 invocaciones sucesivas a la función, con diferentes argumentos, y
un resultado final de 3.
Escriba una función en lenguaje ensamblador Y86 que implemente esta función. Recuerde que la convención de paso de parámetros
de C dice que éstos se almacenan en la pila de derecha a izquierda.
No olvide cumplir con las convenciones Caller-Save y Callee-Save.
El siguiente esqueleto de código le puede servir de comienzo.
# Ejecucion en la direccion 0x00
.pos 0
init:
irmovl Pila, %esp
# define puntero a la pila
irmovl Pila, %ebp
# define puntero base
jmp Main
# ejecuta programa principal
Main:
irmovl $1, %eax
# %eax vale 1
pushl %eax
# 3er argumento z es 1
irmovl $2, %eax
# %eax vale 2
pushl %eax
# 2do argumento y es 2
irmovl $2, %eax
# %eax vale 3
pushl %eax
# 1er argumento x es 3
call takeuchi
# llama a takeuchi(3, 2, 1)
halt
# int takeuchi (int x, int y, int z)
# INSERTE SU CODIGO AQUI
.pos 0x200
Pila:
# pila del programa comienza aqui
Simule la ejecución de su función para los argumentos (3, 2, 1)
usando el simulador secuencial ssim-std.exe. Calcule el número
de ciclos que demora la ejecución y la cantidad de memoria utilizada, tanto por el programa como por la pila.
40
Capítulo 3: Procesador Y86
Simule ahora la ejecución de su función usando el simulador segmentado psim.exe. Indique el CPI obtenido, identificando las instrucciones que causan pérdida de ciclos en el pipeline.
Solución
El siguiente código muestra una posible implementación de la función
de Takeuchi en lenguaje ensamblador Y86.
# Ejecucion comienza en la direccion 0x00
.pos 0
init: irmovl Pila, %esp
# define puntero a la pila
irmovl Pila, %ebp
# define puntero base
jmp Main
# ejecuta programa principal
Main: irmovl $1, %eax
# %eax vale 1
pushl %eax
# 3er argumento z es 1
irmovl $2, %eax
# % eax vale 2
pushl %eax
# 2do argumento y es 2
irmovl $3, %eax
# %eax vale 3
pushl %eax
# 3er argumento z es 3
call takeuchi
# llama a takeuchi con argumentos (3, 2, 1)
halt
# int takeuchi(int x, int y, int z)
takeuchi:
pushl %ebp
# almacena puntero base
rrmovl %esp, %ebp
# crea marco de activación
mrmovl 8(%ebp), %ecx
# lee x
mrmovl 12(%ebp), %eax
# lee y
subl %ecx, %eax
# resta y - x
jl Lazo
mrmovl 12(%ebp), %eax
# lee y
rrmovl %ebp, %esp
# recupera puntero a la pila
popl %ebp
# recupera puntero base
ret
Lazo:
mrmovl 16(%ebp), %edx
irmovl $-1, %eax
addl %eax, %edx
mrmovl 12(%ebp), %eax
pushl %eax
pushl %ecx
pushl %edx
call takeuchi
irmovl $12, %edx
addl %edx, %esp
pushl %eax
#
#
#
#
#
#
#
lee z
almacena -1 en %eax
calcula z - 1
lee y
3er argumento es y
2do argumento es x
1er argumento es z - 1
# almacena 12 en %edx
# ajusta el puntero a la pila en 12
# almacena resultado en la pila
41
Capítulo 3: Procesador Y86
mrmovl 8(%ebp), %ecx
mrmovl 12(%ebp), %eax
irmovl $-1, %edx
addl %edx, %eax
mrmovl 16(%ebp), %edx
pushl %ecx
pushl %edx
pushl %eax
call takeuchi
irmovl $12, %edx
addl %edx, %esp
pushl %eax
#
#
#
#
#
#
#
#
lee x
lee y
almacena - 1 en %edx
calcula y - 1
lee z
3er argumento es x
2do argumento es z
1er argumento es y - 1
mrmovl 8(%ebp), %ecx
irmovl $-1, %edx
addl %edx, %ecx
mrmovl 16(%ebp), %edx
mrmovl 12(%ebp), %eax
pushl %edx
pushl %eax
pushl %ecx
call takeuchi
irmovl $12, %edx
addl %edx, %esp
pushl %eax
#
#
#
#
#
#
#
#
call takeuchi
irmovl $12, %edx
addl %edx, %esp
pushl %eax
#
#
#
#
rrmovl %ebp, %esp
popl %ebp
ret
# recupera puntero a la pila
# recupera puntero base
# almacena 12 en %edx
# ajusta el puntero a la pila
# almacena resultado en la pila
lee x
almacena -1 en %edx
calcula x - 1
lee z
lee y
3er argumento es z
2do argumento es y
1er argumento es x - 1
# almacena 12 en %edx
# ajusta el puntero a la pila
# almacena resultado en la pila
llama a takeuchi de nuevo
almacena 12 en %edx
ajusta el puntero a la pila
almacena resultado en la pila
.pos 0x0200
Pila:
# Pila del programa comienza aqui
Algunos comentarios sobre esta solución:
El programa anterior cumple con las convenciones Caller-Save y
Callee-Save, y con la convención de paso de parámetros de C a través de la pila, de derecha a izquierda.
Se escribió el programa intentando minimizar el uso de memoria
en la pila, para así facilitar la ejecución recursiva de la función.
Capítulo 3: Procesador Y86
42
El programa ocupa 236 bytes de memoria, y su ejecución ocupa 68
bytes en la pila. La función takeuchi() misma ocupa 189 bytes de
memoria.
La simulación del programa anterior usando el simulador secuencial ssim-std.exe calcula la función takeuchi(3, 2, 1) en 177
ciclos de reloj.
La simulación del programa anterior usando el simulador segmentado psim.exe calcula la función takeuchi(3, 2, 1) en 229
ciclos de reloj, dando un CPI de 1.29
La función takeuchi() es invocada 9 veces. Cada invocación involucra una instrucción de retorno ret. Las penalidad asociada a
dichas instrucciones es de 3 ciclos. Entonces, en total estas instrucciones generan 27 ciclos de penalidad. Asimismo, hay 9 instrucciones de salto condicional jl. La penalidad en caso de predicción
errónea de salto es de 2 ciclos. Estudiando el comportamiento del
algoritmo, puede verse que este salto es predicho erróneamente 7
veces, por lo que hay 14 ciclos de penalidad asociados a ese salto.
Los ciclos de penalidad restantes se deben a peligros de lectura
y uso. Por ejemplo, es necesario leer el argumento y de la función
desde memoria usando mrmovl 12(%ebp), %eax, y escribirlo nuevamente a la pila usando pushl %eax antes de invocar por primera
vez a la función takeuchi() después del rótulo Lazo.
3.6 El procesador Intel 80386 posee una instrucción bsr S, D conocida
como Bit Scan Reverse, que determina el índice del primer bit en 1 del
registro S, revisando dicho registro de izquierda a derecha, y retorna
dicho índice en el registro D. Esta instrucción no existe en el procesador Y86, pero puede ser implementada como una función en lenguaje
ensamblador.
a) Escriba, una función bsr en lenguaje ensamblador Y86 que opere
sobre el registro %eax y retorne en el registro %edx el índice del
primer bit en 1 del registro %eax. Es decir, si %eax = 0x432FA708,
al terminar su función el registro %edx debe contener el número
30, ya que ése es el mayor bit de %eax que tiene valor 1.
b) Cuál es el tamaño de su función en bytes?
c) Suponga que su función se ejecuta en el procesador secuencial estudiado en clases. Cuántos ciclos de reloj demorará su ejecución
para %eax = 0x12345678?
43
Capítulo 3: Procesador Y86
d) Suponga ahora que su función se ejecuta en el procesador con pipelining y forwarding visto en clases. Recuerde que las penalidades asociadas a este procesador son:
Peligro
Penalidad
Lectura y uso
Predicción errada
Retorno de función
1
2
3
Cuántos ciclos de reloj demorará ahora la ejecución de su función
en este procesador segmentado, para %eax = 0x12345678?
Solución
a) Una posible implementación de la operación bsr S, D se muestra
a continuación.
bsr:
Lazo:
Fin:
pushl %ebp
rrmovl %esp, %ebp
pushl %esi
irmovl $1, %esi
irmovl $31, %edx
xorl %ecx, %ecx
subl %ecx, %eax
jl Fin
addl %eax, %eax
subl %esi, %edx
je Fin
jmp Lazo
popl %esi
rrmovl %ebp, %esp
popl %ebp
ret
# crea marco de activacion
#
#
#
#
#
#
#
#
#
almacena copia de registro %esi
inicializa %esi a 1
inicializa %edx a 31
inicializa %ecx a 0
resta %eax - 0
si resultado es negativo, ir a Fin
si resultado es positivo, duplicar %eax
decrementar %edx en 1
si resultado es 0, ir a Fin
# recupera valor de registro %esi
# recupera marco de activacion
# retorno de funcion
b) Es sabido que las instrucciones irmovl ocupan 6 bytes de memoria, las instrucciones ret ocupan 1 byte, que las instrucciones de
salto ocupan 5 bytes y que el resto de las instrucciones ocupa 2
bytes de memoria. Puede calcularse, entonces, que el código mostrado tiene un tamaño de 48 bytes.
c) La ejecución de la función mostrada en el procesador secuencial
demorará tantos ciclos como instrucciones se ejecuten. En el caso que el registro %eax toma el valor 0x12345678, se ejecutan 30
instrucciones y por lo tanto demora 30 ciclos.
44
Capítulo 3: Procesador Y86
d) La ejecución de la función mostrada en el procesador segmentado con pipelining y forwarding para el caso el caso en que el registro %eax toma el valor 0x12345678 demora 45 ciclos: 30 ciclos
correspondientes a la ejecución del código sin penalidad, mas 12
ciclos de penalidad causados por los 6 saltos condicionales predichos erróneamente, mas 3 ciclos de penalidad del retorno de función.
3.7 El procesador Intel Y86 no posee una instrucción de rotación de registros, pero ésta puede ser implementada como una función en lenguaje
ensamblador.
Escriba una función rotate que reciba como argumento un entero p
entre 0 y 31 y que retorne el resultado de rotar el registro %eax p bits a
la izquierda. si inicialmente se tiene que %eax = 0x12345678, su valor
después de rotarlo 7 bits a la izquierda es %eax = 0x1A2B3C09. Cuál es
el tamaño de su función en bytes?
Solución
Se muestra a continuación una implementación en 53 bytes de la función solicitada.
rotate: pushl %ebp
rrmovl %esp, %ebp
mrmovl 8(%ebp), %edx
irmovl $1, %ecx
lazo:
andl %edx, %edx
je fin
subl %ecx, %edx
andl %eax, %eax
jl neg
addl %eax, %eax
jmp lazo
neg:
addl %eax, %eax
addl %ecx, %eax
jmp lazo
fin:
rrmovl %ebp, %esp
popl %ebp
ret
# crea marco de activacion
# lee p
# inicializa %ecx a 1
# si p es 0, terminar
#
#
#
#
#
#
#
decrementa p
hace esto para pasar por la ALU
salta si %eax es negativo
desplaza %eax a la izquierda 1 bit
vuelve a lazo
desplaza %eax a la izquierda 1 bit
Agrega bit 1 a la derecha de %eax
# recupera marco de activacion
.pos 0x100
Pila:
# Define la pila del proceso
Capítulo
Pipelining
4.1 Se desea ejecutar un cierto código usando el procesador con pipelining
visto en clases. Se ha medido la siguiente tabla de frecuencias para el
código a ejecutar:
El 20 % de las instrucciones corresponden a instrucciones mrmovl
y popl. De éstas, el 30 % genera peligros de lectura y uso.
El 15 % de las instrucciones son instrucciones de salto condicional,
en las cuales el 50 % de las veces se ejecuta el salto y en el 50 %
restante no se ejecuta el salto.
El 5 % de las instrucciones corresponden a instrucciones de retorno ret.
a) Calcule el CPI asociado a la ejecución de este código en el procesador.
b) Se ha decidido modificar el circuito de predicción de saltos de manera que ahora el porcentaje de saltos predichos correctamente es
80 %. Pero, a un costo de alargar el ciclo de reloj del procesador en
10 %. Vale la pena realizar esta modificación?
Solución
a) En el primer caso, es necesario calcular la penalidad asociada a
cada tipo de peligro. Tabla 4.1 muestra este cálculo. El CPI es entonces CP I = 1 + 0.06 + 0.15 + 0.15 = 1.36.
45
4
46
Capítulo 4: Pipelining
Tabla 4.1: Penalidad por tipo de instrucción
Penalidad
Frec. Instr.
Frec. Condición
Burbujas
Producto
Lectura/uso
Predicción errada
Retorno
0.2
0.15
0.05
0.3
0.5
1.0
1
2
3
0.06
0.15
0.15
b) En el segundo caso, el costo de las predicciones erradas es ahora 0.15 × 0.2 × 2 = 0.06, por lo que el CPI es ahora 1.27. Pero, el
procesador usa un reloj 10 % mas lento. Entonces, el CPI efectivo
comparado con el procesador anterior es 1.27 ∗ 1.1 = 1.397. Por lo
tanto, no vale la pena la modificación.
4.2 La figura 4.1 muestra las etapas de la lógica combinacional de un procesador secuencial. Se ha determinado que ésta puede ser dividida en
6 etapas llamadas A a F, donde cada etapa tiene las latencias indicadas.
Se desea crear nuevas versiones de este diseño insertando registros de
pipeline entre bloques. Suponga que un registro de pipeline tiene un
retardo de 20 ps.
Figura 4.1: Procesador segmentado de 6 etapas
a) Cuál es la latencia y el throughput del pipeline actual?
b) Se desea convertir el sistema anterior a un pipeline de 2 etapas.
Dónde insertaría Ud. el registro de pipeline? Cuál será la latencia
y y el throughput del nuevo pipeline?
Capítulo 4: Pipelining
47
c) Se desea ahora convertir el sistema anterior a un pipeline de 3
etapas. Dónde insertaría Ud. los registros de pipeline? Cuál será la
latencia y y el throughput de este nuevo pipeline?
d) Se desea ahora convertir el sistema anterior a un pipeline de 4
etapas. Dónde insertaría Ud. los registros de pipeline? Cuál será la
latencia y y el throughput de este nuevo pipeline?
e) Se desea ahora convertir el sistema anterior a un pipeline de desempeño máximo. Cuántos registros de pipeline insertaría Ud. y adónde? Cuál será la latencia y y el throughput de este nuevo pipeline?
Solución
a) La latencia actual del pipeline es de 320 ps, lo que da un throughput de 3201 ps = 3.125 ∗ 109 instrucciones/s.
b) Se debe insertar un registro de pipeline entre las etapas C y D,
dividiendo así el pipeline en la etapa A-B-C-registro, de duración
190 ps, y la etapa D-E-F-registro de duración 150 ps. La nueva
latencia de este pipeline es 380 ps, y el throughput es 1901 ps =
5.263 ∗ 109 instrucciones por segundo.
c) Se debe insertar un registro de pipeline entre las etapas B y C, y
otro registro de pipeline entre las etapas D y E, dividiendo así el
pipeline en la etapa A-B-registro, de duración 130 ps, la etapa CD-registro, de duración 130 ps y la etapa E-F-registro de duración
100 ps. La nueva latencia de este pipeline es 390 ps, y el throughput
es 1301 ps = 7.693 ∗ 109 instrucciones por segundo.
d) Se debe insertar un registro de pipeline entre las etapas A y B,
otro registro de pipeline entre las etapas C y D y otro registro de
pipeline entre las etapas D y E. Esto divide el pipeline en la etapa A-registro, de duración 100 ps, la etapa B-C-registro, de duración 110 ps, la etapa D-registro de duración 70 ps y la etapa
E-F-registro de duración 100 ps. La nueva latencia de este pipeline es 440 ps, y el throughput es 1101 ps = 9.09 ∗ 109 instrucciones
por segundo.
e) Finalmente, se insertan registros de pipeline entre las etapas A y
B, B y C, C y D y D y E. Esto divide el pipeline en 5 etapas, la más
lenta de las cuales demora 100 ps, por lo que la nueva latencia de
este pipeline es 500 ps, y el throughput es 1001 ps = 1010 instrucciones por segundo.
Capítulo 4: Pipelining
48
4.3 Un procesador tiene un pipeline de 5 etapas, de largo 20, 40, 30, 10, y
20 ps. Se necesita correr un código que ejecuta 24 veces un lazo de 135
instrucciones en este procesador. Cuánto se demorará este código?
Solución
Supondremos que el retardo de los registros está incluido en el tiempo
de las etapas. Entonces, el procesador iniciará la ejecución de una instrucción cada 40 ps. El código requiere la ejecución de 24 ∗ 135 instrucciones, lo que requerirá 3240 ciclos, demorando entonces 3240 ∗ 40 =
129.6 ns.
4.4 Se desea ejecutar un cierto código usando el procesador con pipelining
visto en clases. Al ejecutar un conjunto dado de aplicaciones, se ha medido la siguiente tabla de frecuencias para el código a ejecutar:
El 25 % de las instrucciones corresponden a instrucciones de lectura de datos desde memoria. De éstas, el 25 % genera peligros de
lectura y uso.
El 12 % de las intrucciones son instrucciones de salto condicional,
en las cuales el 70 % de las veces se ejecuta el salto y en el 30 %
restante no se ejecuta el salto.
El 2.5 % de las instrucciones corresponden a instrucciones de retorno ret.
a) Calcule el CPI asociado a la ejecución de este código en el procesador.
b) Se ha decidido modificar el circuito de predicción de saltos de manera que ahora el procesador supone que los saltos condicionales
hacia atrás siempre se toman, y los saltos condicionales hacia adelante nunca se toman. El examen de las aplicaciones ejecutadas
muestra que el 70 % de los saltos condicionales son hacia atrás, y
de éstos el 80 % se toman. Esta modificación alarga el ciclo de reloj
del procesador en un 8 %. Vale la pena realizar esta modificación?
Solución
a) Para calcular el CPI, es necesario calcular las penalidades incurridas por tres tipos de instrucciones. En el caso de instrucciones de lectura y uso, se sabe que sólo en un cuarto de las instrucciones de lectura y uso se incurre en una penalidad de 1 ci-
Capítulo 4: Pipelining
49
clo. Entonces, la penalidad total asociada a estas instrucciones es
0.25 × 0.25 × 1 = 0.0625 ciclos.
Luego, es necesario calcular el costo de una predicción de salto
errada. El procesador siempre predice que el salto se toma. Si éste
efectivamente es tomado, la penalidad es 0. En cambio, si el salto
no se toma, la penalidad es 2 ciclos. Entonces, como la predicción
de salto falla en 3 de cada 10 saltos, la penalidad total asociada a
estas instrucciones es 0.12 × 0.3 × 2 = 0.072 ciclos.
Finalmente, las instrucciones de retorno siempre sufren una penalidad de 3 ciclos. La penalidad total asociada a estas instrucciones es 0.025 × 3 = 0.075 ciclos. Por lo tanto, el CPI total es
CP I = 1 + 0.0625 + 0.072 + 0.075 = 1.2095
b) Para analizar esta alternativa, es necesario modificar el cálculo del
costo de una predicción de salto errada. El procesador predice que
los saltos condicionales hacia atrás siempre se toman, y que los saltos condicionales hacia adelante nunca se toman. De la respuesta
anterior, sabemos que los saltos no son tomados en un 30 % de los
casos. También sabemos que el 70 % de los saltos condicionales
son hacia atrás, y de éstos el 80 % se toman. Esto significa que el
56 % de los saltos son hacia atrás y se toman, por lo que la predicción está correcta y la penalidad asociada es 0, y que el 14 %
de los saltos son hacia atrás y no se toman, con penalidad 2 ciclos.
Además, esto nos dice que el 16 % de los saltos son hacia adelante y no se toman, y que el 14 % de los saltos son hacia adelante y
se toman. Los primeros serán predichos correctamente, por lo que
tienen una penalidad de 0 ciclos y los segundos tendrán una penalidad de 2 ciclos. Por lo tanto, el costo de la predicción de saltos
es 0.12 × (0.56 × 0 + 0.14 × 2 + 0.14 × 2 + 0.16 × 0) = 0.0672. Entonces,
el nuevo CPI será CP I = 1 + 0.0625 + 0.0672 + 0.075 = 1.2047.
Ahora, esta modificación alarga el ciclo de reloj del procesador en
un 8 %, por lo que el nuevo CPI será realmente 1.08 ∗ 1.2047 =
1.301, el cual, al ser mayor que la alternativa a), no hace rentable
realizar este cambio.
4.5 Sea la siguiente función en lenguaje ensamblador X86, que determina
si una ristra es palíndromo, es decir, si se lee de la misma manera de derecha a izquierda que de izquierda a derecha. Esta función recibe como
argumentos la dirección en memoria de la ristra a examinar y su longi-
50
Capítulo 4: Pipelining
tud en caracteres. La primera columna del código indica el número de
la instrucción.
.type palindromo, @function
palindromo:
1.
pushl %ebp
#
2.
movl %esp, %ebp
#
3.
pushl %ebx
#
4.
movl 8(%ebp), %eax
#
5.
movl 12(%ebp), %edx
#
6.
subl $1, %edx
#
7.
movl $0, %ebx
#
8. lazo: movb (%eax, %ebx), %ch
9.
movb (%eax, %edx), %cl
10.
cmpb %cl, %ch
#
11.
jne finNo
#
12.
incl %ebx
#
13.
decl %edx
#
14.
cmpl %ebx, %edx
#
15.
js finSi
#
16.
jmp lazo
17. finSi: movl $1, %eax
18.
jmp fin
19. finNo: movl $0, %eax
20. fin:
popl %ebx
#
21.
leave
22.
ret
Almacena puntero base en la pila
Redefine el puntero base
Salva en la pila el registro %ebx
Lee direccion de la ristra en %eax
Lee el largo de la ristra en %edx
Calcula offset del ultimo caracter
Calcula offser del primer caracter
Compara los caracteres
Si son distintos, no es palindromo
Incrementa indice in %ebx
Decrementa indice en %edx
Compara los indices
Si es negativo, es palindromo
Recupera el registro %ebx de la pila
Suponga que este código se ejecuta en un procesador segmentado de 5
etapas similar al visto en clases.
a) Identifique en el código los posibles peligros de lectura y uso, indicando los números de las instrucciones donde se producen.
b) Identifique en el código las posibles instancias de stalling.
c) Identifique en el código las posibles instancias de forwarding.
Solución
a) Los peligros de lectura y uso se producen al leer un dato desde
memoria en una instrucción, y utilizar este mismo dato en la instrucción siguiente. Esto ocurre:
1) entre las instrucciones 5 y 6,
2) entre las instrucciones 8 y 9, y
Capítulo 4: Pipelining
51
3) entre las instrucciones 9 y 10.
b) En nuestro procesador simple, stalling ocurre en caso de lectura
y uso, en el caso de saltos condicionales, y en el retorno de una
función. Esto ocurre:
1) entre las instrucciones 5 y 6 (lectura y uso), donde se introduce una burbuja,
2) entre las instrucciones 8 y 9 (lectura y uso), donde se introduce una burbuja,
3) entre las instrucciones 9 y 10 (lectura y uso), donde se introduce una burbuja,
4) entre las instrucciones 10 y 11 (salto condicional), donde se
introducen dos burbujas,
5) entre las instrucciones 14 y 15 (salto condicional), donde se
introducen dos burbujas, y
6) después de la instrucción 21 (retorno de función), donde se
introducen tres burbujas.
c) El forwarding se produce cuando existe dependencia de datos entre instrucciones, y es necesario redirigir un registro entre etapas
de una instrucción en ejecución. Para este análisis, supondremos
que los registros normalmente son leídos al comenzar el ciclo ID,
y que normalmente son escritos al terminar la etapa WB. Entonces,
cualquier transferencia de datos entre registros en otras etapas requiere forwarding. En este caso, se tienen las siguientes instancias:
1) Forwarding del registro %esp desde la etapa EXE de la instrucción 1 a la etapa ID de la instrucción 2.
2) Forwarding del registro %esp desde la etapa MEM de la instrucción 1 a la etapa ID de la instrucción 3.
3) Forwarding del registro %ebp desde la etapa MEM de la instrucción 2 a la etapa ID de la instrucción 4.
4) Forwarding del registro %ebp desde la etapa WB de la instrucción 2 a la etapa ID de la instrucción 5.
5) Forwarding del registro %edx desde la etapa MEM de la instrucción 5 a la etapa ID de la instrucción 6. Esta última etapa se
repite 1 vez debido a que existe un peligro de lectura y uso.
6) Forwarding del registro %ebx desde la etapa EXE de la instrucción 7 a la etapa ID de la instrucción 8.
Capítulo 4: Pipelining
52
7) Forwarding del registro %ch desde la etapa MEM de la instrucción 8 a la etapa ID de la instrucción 9. Esta última etapa se
repite 1 vez debido a que existe un peligro de lectura y uso.
8) Forwarding de los códigos de condición desde la etapa MEM de
la instrucción 9 a la etapa EXE de la instrucción 10. Además,
en esta instrucción existe un peligro de lectura y uso.
9) Forwarding del registro %ebx desde la etapa MEM de la instrucción 11 a la etapa ID de la instrucción 13.
10) Forwarding del registro %edx desde la etapa EXE de la instrucción 12 a la etapa ID de la instrucción 13.
11) Forwarding de los códigos de condición desde la etapa MEM de
la instrucción 13 a la etapa EXE de la instrucción 14.
4.6 Suponga ahora que este procesador tiene un CPI ideal de 1 instrucción
por ciclo, sin considerar penalidades. Determine cuántos ciclos de reloj
demorará la ejecución completa de esta función si sus argumentos son
la ristra radar y el largo 5, considerando ahora las penalidades. En este
caso, suponga que no hay predicción de saltos.
Solución
Ejecutar el código mostrado con los argumentos radar y 5 requiere la
ejecución de 35 instrucciones. Éstas incluyen 7 casos de lectura y uso
(que introducen 7 burbujas), 6 instrucciones de salto condicional (que
introducen 12 burbujas) y una instrucción ret, que introduce 3 burbujas, para un total de 22 burbujas. Por ende, la ejecución de este código requiere 57 ciclos de reloj. A su vez, esto corresponde a un CPI de
57
35 = 1.628.
4.7 Suponga ahora que el procesador en cuestión se modifica de manera de
incorporar predicción de salto. Los saltos condicionales hacia adelante se predicen como no tomados, y los saltos condicionales hacia atrás
se predicen como tomados. No hay penalidad asociada al caso de una
predicción acertada.
Además, se sabe que el costo de esta modificación al procesador es el
aumentar un 2 % su período máximo de reloj.
Determine ahora el número de ciclos de reloj que demorará la ejecución completa de la función en este nuevo procesador, y compare la
ejecución de este código con el caso anterior.
Capítulo 4: Pipelining
53
Solución
Ejecutar el código mostrado con los argumentos radar y 5 requiere la
ejecución de 6 instrucciones de salto condicional, todas ellas hacia adelante. De éstas, 5 no se toman y sólo 1 de ellas se toma. Entonces, al
usar el esquema de predicción descrito, hay 5 predicciones acertadas y
1 predicción errada. Esto reduce la penalidad asociada de 12 ciclos a
sólo 2 ciclos. Por ello, este código se ejecuta en sólo 47 ciclos, para un
CPI de 47
35 = 1.343. Como el ciclo de reloj es 2 % más lento, la ejecución
del código demorará 47 × 1.02 = 47.94 ciclos del reloj original. Por lo
tanto, esta solución es conveniente porque lleva a una ejecución más
rápida de la función dada.
Capítulo
Optimización de código
5.1 Sea la siguiente función en C:
void funcion(int *xp, int *yp) {
*xp = *xp + *yp;
*yp = *xp - *yp;
*xp = *xp - *yp;
}
a) Identifique qué hace esta función
b) Identifique qué problemas puede tener esta función si ambos argumentos apuntan a la misma posición de memoria.
Solución
a) La función intercambia los datos apuntados por los argumentos.
b) Si ambos punteros apuntan a la misma posición de memoria, entonces esta posición toma siempre el valor 0.
54
5
Capítulo
Sistemas de memoria
6.1 Suponga una memoria principal de 8192 bytes y una memoria cache
de 64 bytes, organizada como 16 líneas de 4 bytes cada una, dividida
en dos conjuntos.
El contenido de la cache es como se muestra en la siguiente tabla, donde
la primea columna es el número de línea, V es el bit de validez, y B0 a
B3 son los bytes 0 a 3, respectivamente.
0
1
2
3
4
5
6
7
Tag
09
45
EB
06
C7
71
91
46
V
1
1
0
0
1
1
1
0
B0
86
60
2F
3D
06
0B
A0
B1
Cache asociativa de 2 conjuntos
B1 B2 B3
Tag V B0
30 3F 10
00 0 99
4F E0 23
38 1 00
81 FD 09
0B 0 8F
94 9B F7
32 1 12
78 07 C5
05 1 40
DE 18 4B
6E 0 B0
B7 26 2D
F0 0 0C
0A 32 0F
DE 1 12
B1
04
BC
e2
08
67
39
71
C0
B2
03
0B
05
7B
C2
D3
40
88
B3
48
37
BD
AD
3B
F7
10
37
a) Indique en un diagrama los bits de la dirección física correspondientes a
1) el tag
2) el índice
3) el número del byte en la línea
55
6
Capítulo 6: Sistemas de memoria
56
b) El procesador genera la dirección 0x0E34. Indique la línea de la
cache accesada y el byte accedido. Indique además si el acceso genera un fallo en cache.
6.2 Ud. ha comprado un nuevo computador, y estudios de desempeño en
éste le indican que:
95 % de los accesos a memoria son atendidos por la memoria cache.
Cada bloque de memoria cache es de 2 palabras, y el bloque completo es transferido desde memoria RAM a la memoria cache en
caso de una falta de cache.
El procesador genera, en promedio, 109 direcciones de memoria
por segundo.
25 % de estas direcciones son escrituras a memoria.
Suponga que el sistema de memoria soporta 109 accesos por segundo, pero el bus de interconexión sólo soporta un acceso a la
vez (no puede haber 2 lecturas o escrituras a memoria en forma
simultánea).
Suponga que, en promedio, el 30 % de los bloques en la cache han
sido modificados.
Calcule el tiempo de acceso promedio a memoria y el porcentaje de
utilización del bus de interconexión para los siguientes casos:
a) La memoria cache es Write-Through
b) La memoria cache es Write-Back
6.3 Suponga que la ejecución de un programa en un computador con un
sistema de memoria ideal muestra un CPI de 1.5. El sistema de memoria real del computador tiene una latencia de 40 ciclos, después de los
cuales la memoria RAM es capaz de entregar 4 bytes en cada ciclo de
reloj. Suponga además que hay 32 bytes en una línea de memoria cache, que el 20 % de la instrucciones son instrucciones de transferencias
de datos, y que el 50 % de estas instrucciones son escrituras a bloques
de memoria modificados. Se sabe que este computador puede utilizarse
con
Una memoria cache unificada de 16 KiB con asociatividad directa,
que utiliza Write-Back y tiene una tasa de fallas de 2.9 %.
Capítulo 6: Sistemas de memoria
57
Una memoria cache unificada de 16 KiB con asociatividad de dos
vías, que utiliza Write-Back y tiene una tasa de fallas de 2.2 %.
Una memoria cache unificada de 32 KiB con asociatividad directa,
que utiliza Write-Back y tiene una tasa de fallas de 2.9 %.
Calcule para todos los casos el CPI efectivo del sistema.
6.4 Suponga que tiene el siguiente código C que se ejecutará en un sistema con una memoria cache directamente asociativa de 1024 bytes de
tamaño, con 16 bytes por línea.
struct posicion {
int x;
int y;
};
struct posicion malla[16][16];
int xTotal = 0; yTotal = 0;
int i, j;
for (i = 0; i < 16; i++) {
for (j = 0; j < 16; j++) {
xTotal += malla[i][j].x;
}
}
for (i = 0; i < 16; i++) {
for (j = 0; j < 16; j++) {
yTotal += malla[i][j].y;
}
}
Suponga además que:
Un entero int ocupa 4 bytes.
La cache está inicialmente vacía.
La matriz malla se almacena en memoria a partir de la posición
0x00.
Las variables i, j, xTotal y yTotal se almacenan en los registros
del procesador.
Entonces,
a) Calcule la tasa de fallos de la memoria cache
b) Repita lo anterior para el siguiente lazo
Capítulo 6: Sistemas de memoria
58
for (i = 0; i < 16; i++) {
for (j = 0; j < 16; j++) {
xTotal += malla[i][j].x;
yTotal += malla[i][j].y;
}
}
c) Repita el punto anterior, pero ahora suponiendo una memoria cache del doble del tamaño
d) Repita ahora los dos puntos anteriores para el siguiente lazo
for (i = 0; i < 16; i++) {
for (j = 0; j < 16; j++) {
xTotal += malla[j][i].x;
yTotal += malla[j][i].y;
}
}
Solución
La matriz malla contiene 256 elementos de tipo posicion, cada uno de
ellos de 2 enteros, ocupando 8 bytes. Entonces, la matriz ocupa 2048
bytes, así que no cabe completamente en la memoria cache. Además,
una línea de cache contiene 16 bytes o 2 elementos de la matriz malla.
Por ello, no hay aciertos en cache por reutilización de datos y sólo puede haber aciertos en accesos a datos que hayan sido precargados en la
cache.
a) El primer ciclo anidado accede primero a todos los miembros x
y luego a todos los miembros y de las estructuras posición de la
matriz malla. El primer acceso a un miembro x transfiere 2 estructuras posicion a la memoria cache, pero sólo la escritura al
miembro x del segundo elemento transferido serán aciertos en la
cache. Esta situación se repite para los accesos a los miembros y
de la matriz. Así, la tasa de fallos es 50 %.
b) En este caso, se accede a los elementos de la matriz por filas, y a
ambos miembros de una estructura posición en forma secuencial.
El acceso al primer miembro x será un fallo en la cache, pero los
tres accesos siguientes serán aciertos en la cache, así que la tasa de
fallos será 25 %.
c) La tasa de fallo no se ve afectada si el tamaño de la memoria se
duplica.
Capítulo 6: Sistemas de memoria
59
d) En este caso, se accede a los elementos de la matriz por columnas,
por lo que el acceso al miembro x será un fallo de la cache, pero
el acceso al miembro y del mismo elemento será un acierto. Por
ello, la tasa de fallos será de 50 %. Si la memoria cache se duplica,
entonces la tasa de fallos disminuye a 25 %.
6.5 Considere el siguiente código C, que calcula la traspuesta de una matriz
typedef int matriz[2][2];
void traspuesta(matriz destino, matriz fuente) {
int i, j;
for (i = 0; i < 2; i++) {
for (j = 0; j < 2; j++) {
destino[j][i] = fuente[i][j];
}
}
}
Suponga que este código se ejecuta en una máquina de 32 bits con las
siguientes características:
La matriz destino comienza en la dirección de memoria 0 y la
matriz fuente comienza en la dirección de memoria 0x0010.
El sistema posee una cache de datos L1 de 16 bytes de tamaño,
asociatividad directa, una política de escrituras Write-Through y
líneas de 8 bytes.
Esta cache está inicialmente vacía.
Los únicos accesos a memoria son las lecturas y escrituras a las
matrices destino y fuente.
Entonces:
a) Para cada elemento de las matrices destino y fuente, indique si
su acceso fue una falla o un acierto en cache.
b) Calcule la tasa de aciertos de la matriz.
c) Calcule el número de bytes transferidos entre RAM y cache.
6.6 Ud. está escribiendo un nuevo juego 3D para celulares que le darán
fama y fortuna, y hoy debe escribir una función que limpie la pantalla
Capítulo 6: Sistemas de memoria
60
antes de dibujar la siguiente imagen. La pantalla tiene 480 líneas de
640 pixeles cada una. El procesador que Ud. está utilizando tiene una
cache directa de 64 KiB con líneas de 4 bytes. Las estructuras de datos
básicas que Ud. está usando son:
struct pixel {
char r;
char g;
char b;
char a;
};
struct pixel buffer[480][640];
int i, j;
char *cptr;
int *iptr;
Suponga que sizeof(char) = 1, sizeof(int) = 4, que buffer está
almacenado a partir de la dirección de memoria 0x0000, que la cache
está inicialmente vacía y que las variables i, j, cptr y iptr están almacenadas en los registros del procesador, de manera que los únicos
accesos a memoria son a direcciones dentro de buffer.
a) Ud. primero escribe el siguiente código para limpiar la pantalla.
Calcule la tasa de aciertos de la cache.
for (j = 0; j < 640; j++) {
for (i = 0; i < 480; i++) {
buffer[i][j].r = 0;
buffer[i][j].g = 0;
buffer[i][j].b = 0;
buffer[i][j].a = 0;
}
}
b) Luego, Ud. escribe el siguiente código para limpiar la pantalla.
Calcule la tasa de aciertos de la cache.
char *cptr;
cptr = (char *) buffer;
for (; cptr < ((char *) buffer + 640*480*4; cptr++) {
*cptr = 0;
}
Capítulo 6: Sistemas de memoria
61
c) Finalmente, Ud. escribe el siguiente código para limpiar la pantalla. Calcule la tasa de aciertos de la cache.
int *iptr;
iptr = (int *) buffer;
for (; iptr < buffer + 640*480; iptr++) {
*iptr = 0;
}
d) Cuál código usará Ud.?
Solución
En este problema, el tamaño de la pantalla determina la cantidad de
memoria necesaria para desplegar una imagen como 640 ∗ 480 ∗ 4 =
1228800 bytes, donde cada pixel se almacena en 4 bytes. Para limpiar
la pantalla, cada pixel será accedido sólo una vez, así que los únicos
aciertos posibles son en accesos a datos precargados en una línea de la
cache, de tamaño 4 bytes.
a) En este caso, acceder al primer elemento r de la estructura de datos pixel es un fallo en la cache y provoca la transferencia de la
estructura completa desde memoria a la cache. Luego, los accesos
a los otros tres elementos de la estructura son aciertos en la cache.
Este patrón se repite para cada pixel accedido, así que la tasa de
aciertos de la cache es 75 %.
b) En este caso, se accede secuencialmente a cada elemento de la memoria por byte. Nuevamente, no hay reutilización de datos excepto en la línea de cache. En este caso, el acceso al primer byte de
la línea es un fallo en la cache, pero los accesos a los tres bytes siguientes son aciertos en la cache. Por ello, la tasa de aciertos es de
75 %.
c) En este caso, se accede secuencialmente a cada elemento de la memoria en unidades de 4 bytes, que es el tamaño de la línea de cache. No hay reutilización de líneas de cache, así que todos los accesos a memoria son fallos en la cache, por lo que la tasa de aciertos
de la cache es de 0 %.
d) La principal componente del tiempo de ejecución de estos códigos
será el tiempo para transferir los datos entre memoria principal y
memoria cache. Aun cuando las dos primeras alternativas tienen
62
Capítulo 6: Sistemas de memoria
tasas de acierto mayores, los tres códigos involucran igual cantidad y frecuencia de transferencias entre memoria principal y memoria cache. La última opción ejecuta menos instrucciones en un
lazo más compacto. Si suponemos que el procesador puede escribir 4 bytes a memoria cache en un mismo ciclo de bus, la última
alternativa bien puede ser la más rápida.
6.7 La siguiente tabla muestra los parámetros de diferentes caches para
un procesador de 32 bits. En dicha tabla, C es el número de bytes de
datos de la cache, B es el tamaño del bloque de cache en bytes, y E es
el número de bloques por conjunto. Calcule S: el numero de vías de la
cache, t: el numero de bits en el tag, i: el número de bits usados como
índice, b: el número de bits usados como desplazamiento en el bloque,
y T : el número total de bits en la cache, incluyendo datos, tag, bit de
validez y de modificación.
C
B
E
1024 4
4
1024 4 256
2048 8
1
2048 8 128
4096 32
1
8192 32
4
S
t
i
b
T
Solución
La tabla se llena usando las fórmulas S =
t = 32 − b − i, y T = 8C + CB (t + 2).
C
B
E
1024 4
4
1024 4 256
2048 8
1
2048 8 128
4096 32
1
8192 32
4
S
64
1
256
2
128
64
t
24
30
21
28
20
21
i
6
0
8
1
7
6
b
2
2
3
3
5
5
C
BE ,
b = log2 (B), i = log2 (S),
T
8192 + 6656 = 14848
8192 + 8192 = 16384
16384 + 5888 = 22272
16384 + 7680 = 24064
32768 + 2816 = 35584
65536 + 5888 = 71424
Capítulo 6: Sistemas de memoria
63
6.8 Se le ha pedido escribir el código para dirimir la elección de alcalde en
la comuna de San Pablo de la Paz, donde hay 7 candidatos a la alcaldía. Ud. desarrolla entonces un programa en C y busca optimizar su
desempeño. El software que Ud. desarrolle se ejecutará en un procesador de 32 bits que posee una memoria cache directa de 1024 bytes, con
bloques de 64 bytes. Suponga además que inicialmente esta cache esta
vacía.
En su código, Ud. utiliza la siguiente estructura de datos
struct Voto {
int candidatos[7];
int valido;
};
struct Voto matrizVotos[16][16];
// Estas variables se almacenan en registros de la CPU
register int i, j, k;
Entonces, Ud. escribe el siguiente código C para inicializar las estructuras de datos a utilizar.
for (i = 0; i < 16; ++i) {
for (j = 0; j < 16; ++j) {
matrizVotos[i][j].valido = 0;
}
}
for (i = 0; i < 16; ++i) {
for (j = 0; j < 16; ++j) {
for (k = 0; k < 7; ++k) {
matrizVotos[i][j].candidatos[k] = 0;
}
}
}
Su colega escribe el siguiente código C para realizar la misma función.
for (i = 0; i < 16; i++) {
for (j = 0; j < 16; j++) {
for (k = 0; k < 7; k++) {
matrizVotos[i][j].candidatos[k] = 0;
}
matrizVotos[i][j].valido = 0;
}
}
Capítulo 6: Sistemas de memoria
64
Su jefe dice que dará un bono de producción al programador cuyo código tenga el menor número de faltas de cache. Suponiendo que el área de
datos de su programa comienza en la posición de memoria 0x4000, que
un dato int ocupa 4 bytes, y que las variables i, j y k están en registros
de la CPU, quién de Uds. dos recibe el bono? Justifique su respuesta
calculando la tasa de aciertos en cada caso.
Solución
Dado que el bloque es de 64 bytes y cada estructura Voto ocupa 32 bytes, entonces un bloque de cache almacena 2 estructuras Voto. En ese
caso, acceder a cualquier miembro del dato matrizVotos[0][0] transfiere las estructuras matrizVotos[0][0] y matrizVotos[0][1] a memoria cache.
En el primer código, el primer conjunto de ciclos realiza 256 accesos
a memoria, de los cuales la mitad son fallas en cache. El segundo conjunto de ciclos realiza 1792 accesos a memoria, de los cuales 1 de cada
14 es una falla en cache, y el resto son aciertos. Entonces, la tasa de
aciertos es 128+1664
= 87.5 %.
2048
En cambio, el segundo código también realiza 2048 accesos a memoria,
de los cuales 1920 corresponden a aciertos en la cache, lo que da una
1920
tasa de aciertos de 2048
= 93.75 %. Por ello, su colega recibe el bono.
6.9 Suponga que el programa palindromo del ejercicio 4.5 se ejecuta utilizando una cache directa unificada de 64 bytes de tamaño, con bloques
de 4 bytes cada uno. Calcule la tasa de aciertos de la cache al ejecutar la
función anterior con los argumentos radar y el largo 5, donde la ristra
a procesar está residente en memoria a partir de la posición de memoria 0x200. Recuerde que la memoria cache es accedida por bytes por la
CPU.
Solución
Analizaremos la ejecución de las instrucciones de la función con los
argumentos radar y el largo 5. Por simplicidad y falta de información,
no consideraremos el efecto de la pila.
Inicialmente, se ejecutan las instrucciones 1 a 15, después se ejecutan
las instrucciones 8 a 15, luego nuevamente las instrucciones 8 a 14,
luego las instrucciones 16, 17 y finalmente las instrucciones 19 a 21.
La ejecución de estas 27 instrucciones involucra leer 74 bytes desde
memoria RAM. A su vez, estos bytes de memoria están almacenados
en 13 líneas de 4 bytes que serán transferidas consecutivamente a los
65
Capítulo 6: Sistemas de memoria
bloques 1 a 13 de la memoria cache. Como la cache inicialmente está
vacía, estas 13 transferencias producen 13 fallos en cache. Entonces, la
ejecución del código produce 13 fallos y 61 aciertos en cache.
Por otro lado, los 5 bytes del argumento se almacenan a partir de la
posición de memoria 0x200. Esto corresponde a 2 líneas de memoria,
las que se transferirán a los bloques 0 y 1 de la memoria cache. Afortunadamente, no hay interferencia en el uso del bloque 1 de la memoria
cache por parte del código. Durante la ejecución, se accede a los bytes
0x200, 0x201, 0x203 y 0x204 una vez, y al byte 0x202 dos veces. Estos
accesos generan 2 fallos y 4 aciertos en cache.
Entonces, podemos decir que, en total, se realizan 80 accesos a cache,
de los cuales 15 son fallos y 65 son aciertos, para una tasa de aciertos
de 81.25 %.
6.10 Intel está diseñando una nueva CPU y quieren consultarle su opinión.
Las alternativas en consideración son: una cache de 32 KiB de arquitectura Harvard dividida en 16 KiB para instrucciones y 16 KiB para
datos, o una cache unificada de 32 KiB. Mediciones realizadas entregan
las siguientes tasas de fallo en función del tamaño de la cache:
Tamaño
Cache de instrucciones
Cache de datos
Cache unificada
16 KiB
32 KiB
0.64 %
0.39 %
6.47 %
4.82 %
2.87 %
1.99 %
Además, se sabe que:
El 75 % de los accesos a memoria son lecturas de instrucciones
El tiempo de acceso a la cache es de 1 ciclo de reloj
El tiempo de acceso a RAM es de 50 ciclos de reloj
La memoria cache es de tipo write-through, con buffers de escritura
La memoria cache de arquitectura Harvard tiene dos puertos de
acceso, lo que permite leer una instrucción y un dato en un ciclo
La memoria cache unificada tiene sólo un puerto de acceso, por lo
que un acceso de lectura ó escritura de datos requiere de 1 ciclo de
reloj adicional.
Dado lo anterior,
Capítulo 6: Sistemas de memoria
66
a) calcule la tasa de fallos para la cache de arquitectura Harvard,
b) calcule el tiempo de acceso promedio para ambas arquitecturas de
cache.
Cuál solución recomienda Ud.?
Solución
El que la memoria cache sea de tipo write-through con buffers de escritura implica que, desde el punto de vista de la CPU, las escrituras a cache
demoran un ciclo, ya que la transferencia de datos entre la cache y la
memoria RAM ocurre bajo el control del buffer.
a) La tasa de fallos para la cache de arquitectura Harvard se puede
calcular como:
(75 % ∗ 0.64 %) + (25 % ∗ 6.47 %) = 2.0975 %
b) El tiempo de acceso promedio de la cache de arquitectura Harvard
es:
1
3
∗ ((1 − 0.64 %) + 0.64 % ∗ 50) + ∗ ((1 − 6.47 %) + 6.47 % ∗ 50) = 2.028
4
4
En cambio, el tiempo de acceso promedio de la cache unificada es:
3
1
∗((1−1.99 %)+1.99 %∗50)+ ∗((1−1.99 %)+1+1.99 %∗50) = 2.225
4
4
Por lo tanto, la cache de arquitectura Harvard tiene un desempeño
superior.
Capítulo
Planificación de procesos
7.1 En un centro de cómputo se desea ejecutar las siguientes tareas:
Nombre Prioridad Duración TLlegada
A
B
C
D
E
F
4
8
1
3
2
5
4
3
8
2
6
5
0
2
3
5
6
8
Para cada uno de los siguientes algoritmos de planificación de procesos,
determine el tiempo medio de retorno Tr , el tiempo medio de espera Tw
y el largo promedio de la cola de procesos en espera L.
Shortest Process Next (SPN)
Shortest Remaining Time (SRT)
Highest Response Ratio Next (HRRN)
Planificación via prioridades
Round Robin, con q = 2
Nótese que los algoritmos de planificación HRRN y SPN no son expropiativos, mientras que SRT, Round Robin y planificación por prioridades si lo son. Además, considere que, a menor valor, mayor es la
prioridad.
67
7
68
Capítulo 7: Planificación de procesos
En caso de ser necesario, suponga que la cola de procesos en espera es
una cola FIFO que, en caso de coincidencia, da prioridad a los procesos
nuevos por sobre los procesos expulsados por la CPU.
Solución
La siguiente tabla muestra los parámetros solicitados para los algoritmos de planificación dados.
Algoritmo
Tr
Tw
Shortest Process Next (SPN)
9.6̄ 5.0
Shortest Remaining Time (SRT)
9.6̄ 5.0
Highest Response Ratio Next (HRRN) 10.6̄ 6.0
Planificación via prioridades
16.0 11.3̄
Round Robin, con q = 2
13.5 8.83̄
L
1.071
1.071
1.285
2.428
1.892
Descargar