Problema II Multiprocesadores

Anuncio
PROBLEMA 2 MULTIPROCESADORES
Aunque parece que para pocos procesadores un bus común es la red ideal, no
siempre es así; por ejemplo, ya que un bus común se usa tanto para accesos a memoria
como para mantener la coherencia entre cachés, tiene un tacc igual para ambos casos (el
estar recargado con la arbitración entre distintos maestros puede hacerlo más lento). Sin
embargo, un NUMA puede sacrificar el tacc a la red mientras favorece el tacc a la
memoria local.
Suponiendo que esto ocurre, comparar un UMA de 16 procesadores (con cachés
locales L1 y L2) con un NUMA topología malla 2D del mismo número y tipo de
procesadores, para un algoritmo FFT (comunicación todos con todos) y otro tipo Ocean
(sólo comunicación adyacente). Se pide:
a) Calcular el número medio de enlaces que ha de recorrer un mensaje para ambos
algoritmos en la red malla 2D.
b) Suponiendo los datos temporales siguientes, ¿qué porcentaje máximo de accesos
remotos se permite en el NUMA para que se comporte mejor que el UMA? Sea
c.c.= ciclos de CPU y c.r.= ciclos de red, con una frecuencia de CPU de 150
MHz y una línea de caché de 128 bytes y direcciones de 32 bits para ambos
casos. Suponer que toda la línea está limpia (igual MR). Datos para el UMA:
thit,L1+ thit,L2 = 40c.c., Pmiss,L2 = 124c.c. (y a la vez se carga la línea en L1). Datos
para el NUMA: frecuencia de la red de 100MHz, ancho de red de 16 bits,
thit,L1+ thit,L2 = 40c.c., Pmiss,L2 = 80c.c. (optimizado según el enunciado, es decir,
sólo referente a los accesos locales), ts=5c.r., th=1c.r. y tiempo de transferencia
tw=16bits/c.r. Suponer que no existe contención en la red. Suponer también que
el envío de paquetes por la red se hace por medio del método encadenado de
túneles (wormhole), de forma que el tiempo total de envío es exactamente:
lth+ mtw (más el correspondiente tiempo de inicio y de recepción) donde m es el
tamaño en bloques de 16 bits (el ancho de la red) del paquete (despreciar la
cabecera del paquete).
Descargar